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Introduction to High Performance Computing for Scientists and Engineers 


Georg Hager 和 Gerhard Wellein 在 本 书 中 介绍 了 高 性 能 计算 的 基础 知识 ， 写 作 和 描述 方式 十 分 多 
Ts 本 书 全 面 讲解 子 理论 技术 一 体系 结构 现代 高 性 能 计算 机 软件 实现 以 及 高 性 能 计算 系统 使 
用 等 知识 ,重点 关注 科学 与 工程 计算 中 的 问题 ， 有 具有 教育 性 和 独特 性 ， 我 向 科学 家 和 工程 师 强烈 推荐 
此 书 。 我 相信 本 书 能 使 许多 读者 收益 良 多 并 为 他 们 提供 一 个 优秀 参 
Jack Dongarra， 力 纳西 大 学 教授 ， 关 国 国家 工程 院 陀 十 


本 书 由 高 性 能 计算 专家 编写 ， 介 绍 了 当前 主流 的 计算 机 体系 结构 、 主 流 并 行 编程 模型 、 常 用 优化 策 
略 。 本 书 对 程序 性 能 方面 的 讲解 采用 直观 的 方式 ， 不 需要 丰富 的 计算 机 科学 知识 就 能 理解 。 本 书 可 作为 
读者 学 习 更 高 级 知识 的 基础 。 





e 憩 盖 基 本 的 串 行 优化 策略 和 主流 并 行 模式 。 

© 强调 在 不 同系 统 体系 结构 上 程序 性 能 建 模 的 重要 性 。 

oe 包含 大 量 作者 在 多 年 用 户 支 持 、 程 序 优 化 和 评测 工作 中 积累 的 实例 。 
o 介绍 了 一 些 重要 概念 ， 例 如 多 核 体系 结构 和 亲缘 性 。 

e 展示 了 大 量 Fortran、C 和 C++ 代码 实例 。 
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验 ， 其 教学 对 象 包括 计算 科学 和 工程 编程 领域 的 学 生 和 科学 家 。 他 的 研究 兴趣 包括 大 规模 稀疏 特征 


题 求解 、 新 奇 并 行 化 方法 、 性 能 建 模 以 及 体系 结构 优化 方法 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 区 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 。 目 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 , 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey 
D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 圳 助 ， 国 内 的 专家 不 仅 提 供 了 
中 肯 的 选 题 指 导 ， 还 不 群 劳 苗 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书” 已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ,我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢 迎 老 师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ,我们 的 联系 方法 如 下 : 

华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 ] 号 

邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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以 高 性 能 计算 为 核心 的 计算 科学 ,已 经 广泛 应 用 于 科学 研究 和 工程 设计 的 各 个 层面 ， 
成 为 继 理论 研究 和 实验 研究 之 外 的 第 三 种 科学 研究 方法 。 美 国 总 统 信息 技术 顾问 委员 会 在 
2005 年 发 表 题 为 “计算 科学 : 确保 美国 竞争 力 ” 的 报告 中 认为 计算 科学 是 21 世纪 最 重要 的 
技术 领域 之 一 ， 它 对 于 整个 社会 的 进步 是 不 可 或 缺 的 ， 并 建议 美国 政府 制定 规划 ， 对 计算 科 
学 进行 长 期 资助 。 

高 性 能 计算 追求 程序 执行 效率 ， 因 此 并 行程 序 的 实现 与 优化 成 为 计算 机 科学 家 的 两 大 研 
究 主题 。 本 书 也 以 并 行 编程 模型 和 并 行 优 化 为 主要 内 容 ， 对 程序 串 行 优化 、 数 据 优 化 和 并 行 
性 优化 做 了 深入 介绍 ， 还 对 多 处 理 器 导致 的 NUMA 问题 以 及 多 核 环 境 下 的 进程 亲缘 性 进行 
了 深入 讲解 。 在 并 行 编程 模型 方面 ，OpenMP 和 MPI 分 别 是 共享 存储 系统 和 分 布 式 存储 系 
统 两 大 并 行 计算 机 体系 架构 上 的 事实 标准 。 本 书 不 仅 详细 介绍 了 这 两 种 编程 语言 ， 并 且 还 单 
独 设 立 章节 讲解 了 相应 的 关键 优化 技术 。 此 外 ,本 书 配 备 大 量程 序 和 命令 实例 ， 方 便 读者 掌 
握 相 关 技 巧 。 总 之 ， 本 书 作 者 通过 目 己 多 年 的 高 性 能 计算 领域 编程 和 优化 的 实践 经 验 ， 选 取 
最 为 关键 的 基本 知识 和 优化 技术 进行 讲解 ， 可 供 相 关 领 域 科学 家 作为 参考 。 

本 书 作 者 Georg Hager 和 Gerhard Wellein 均 为 物理 学 家 ， 长 期 在 Erlangen Regional 
Computing Center (RRZE) 高 性 能 计算 组 从 事 高 性 能 计算 研究 ，Gerhard Wellein 目前 还 担任 
该 小 组 主任 ， 主 要 研究 兴趣 包括 现代 微 处 理 器 的 体系 结构 相关 优化 方法 、 处 理 器 和 系统 层次 
的 性 能 模型 ， 以 及 异 构 系 统 优化 。 两 位 作者 在 高 性 能 计算 领域 都 有 丰富 的 全 方位 用 户 支持 和 
教学 经 验 ， 例 如 讲座 、 报 告 、 培 训 、 代 码 并 行 化 、 代 码 分 析 和 优化 以 及 新 颖 计算 机 体系 结构 
和 工具 的 评估 ， 其 教学 对 象 包括 计算 科学 和 工程 编程 领域 的 学 生 和 科学 家 。 

由 于 时 间 人 仓促 ， 加 上 书 中 某 些 术语 目前 没有 统一 译 法 ， 所 以 我 们 对 一 些 术语 采取 了 保留 
其 英文 名 称 的 方法 。 对 书 中 翻译 方面 的 错误 和 不 妥 之 处 ， 奶 请 广大 读者 不 音 批评 指正 。 
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Georg Hager 和 Gerhard Wellein 在 本 书 中 为 科学 家 和 工程 师 循 序 渐进 地 介绍 了 高 性 能 计 
算 知 识 。 本 书 的 风格 和 讲解 方法 十 分 易 读 并 容易 理解 。 

二 十 多 年 前 提出 的 计算 建 模 和 模拟 的 概念 已 经 成 为 理论 研究 和 实验 研究 之 外 的 第 三 种 科 
学 研究 方法 ， 软 件 、 数 学 模型 和 算法 是 科学 计算 领域 的 关键 核心 。 并 行 硬件 的 发 展 十 分 迅 
猛 ， 特 别 是 以 指数 速度 增长 的 处 理 器 性 能 以 及 处 理 器 体系 结构 和 超级 计算 机 系统 设计 的 研 
究 。 当 计算 建 模 和 模拟 成 为 科学 研究 的 第 三 种 方法 后 ， 复 杂 软 件 及 其 生态 系统 将 会 处 于 本 研 
究 领 域 的 核心 地 位 。 

在 应 用 层 ， 科 学 必须 展现 为 数学 模型 ， 并 进一步 表达 为 算法 和 对 应 的 软件 代码 。 相 应 
地 ， 大 部 分 科学 基金 也 在 转向 这 样 的 项 目 ， 即 需要 领域 科学 家 、 计 算 机 科学 家 及 应 用 数学 家 
协同 合作 ， 从 原始 科学 构想 到 最 终 可 执行 软件 的 研究 。 这 样 的 项 目 也 需要 数学 库 、 协 议和 系 
统 软 件 等 这 些 需要 人 花费 数 年 开发 并 需要 持久 维护 的 大 规模 底层 架构 的 支持 ， 这 些 软件 通常 比 
最 初 设 计 的 硬件 平台 甚至 是 设计 和 开发 人 员 存 活 更 长 时 间 。 

本 书 履 盖 了 当代 处 理 器 体系 结构 的 基础 知识 ， 以 及 为 科学 计算 程序 有 效 地 利用 硬件 特性 
进行 串 行 优化 的 基本 技术 。 作 者 讨论 了 数据 移动 中 的 关键 问题 并 辅 以 实例 ， 并 以 简单 易 读 的 
方式 介绍 了 高 性 能 计算 中 的 重要 问题 。 书 中 还 讨论 了 共享 存储 、 非 一 致 访问 以 及 分 布 式 存储 
的 并 行 化 方法 。 除 此 之 外 ， 还 重点 介绍 了 常用 的 并 行 编程 模型 ， 例 如 .OpenMP、MPI 以 及 混 
合 编程 方法 。 

我 们 生活 在 一 个 高 效 利 用 超级 计算 机 系统 进行 大 规模 高 性 能 计算 的 时 代 。 本 书 对 并 行 理 
论 、 优 化 技术 、 体 系 结构 和 现代 高 性 能 计算 系统 软件 等 方面 进行 了 介绍 ， 特 别 是 对 科学 和 工 
程 问题 的 关注 使 得 本 书 成 为 一 本 独特 的 教材 ， 因 此 我 强烈 向 科学 家 和 工程 师 推荐 此 书 ， 本 书 
可 以 作为 一 本 优秀 的 参考 书 ， 我 相信 本 书 会 令 大 多 数 读者 受益 。 


Jack Dongarra 


美国 田纳西 大 学 
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“4 1941 年 构建 世界 上 第 一 台 全 自动 可 编程 并 具备 二 进 制 浮 点 运算 能 力 的 计算 机 时 
[H129], Konrad Zuse 成 功 地 预见 了 这 种 革命 性 设备 不 仅 只 应 用 于 科学 和 工程 领域 ， 还 将 对 
生活 的 各 个 方面 产生 深远 影响 [H130]。 计 算 机 的 高 效 运 算 、 可 视 化 和 数据 处 理 能 力 ， 人 允许 
我 们 自动 执行 大 量 任务 并 实现 无 延迟 通信 ， 这 使 得 Zuse 的 预言 成 为 现实 ， 计 算 已 经 彻底 地 
改变 了 我 们 的 生活 方式 和 科研 手段 。 

科学 和 工程 研究 从 另 一 种 特别 的 角度 受益 于 计算 能 力 的 增长 。 早 期 的 科研 人 员 已 经 意识 
到 计算 机 可 以 通过 虚拟 实验 代替 现实 中 那些 太 过 复杂 、 昂 贵 或 极端 危险 的 真实 实验 ， 或 者 进 
行 以 前 无 法 手工 完成 的 计算 ， 计 算 流 体力 学 ( Computational Fluid Dynamics，CFD )， 即 模拟 
任意 几何 形状 的 流体 就 是 一 个 这 样 典型 的 应 用 。 飞 机 、 汽 车 、 高 速 列 车 以 及 涡轮 设备 的 设计 
都 离 不 开 流 体力 学 分 析 。 以 前 的 风 洞 和 木质 实体 模型 属于 实验 研究 ， 而 在 包括 流体 力学 在 内 
的 几乎 所 有 科学 研究 领域 ， 计 算 已 成 为 理论 分 析 和 实验 设计 之 外 的 第 三 种 科学 研究 方法 。 近 
几 年 药物 设计 已 成 为 高 性 能 计算 的 新 兴 研 究 方 向 ， 化 学 家 可 以 利用 软件 (只 需 点 击 鼠 标 ) 快速 
发 现 化 学 反应 机 制 ， 模 拟 影响 生命 运行 机 制 的 大 分 子 间 的 复杂 动力 学 。 理 论 固体 物理 通过 在 
量子 级 别 对 组 成 成 分 、 原 子 核 和 电子 的 相互 作用 进行 建 模 来 在 微观 级 别 研究 物质 结构 [A79], 
需要 的 大 量 自 由 度 使 其 无 法 在 理论 层次 上 进行 分 析 ， 而 只 能 借助 大 规模 计算 资源 实现 。 其 他 
同样 需要 大 规模 计算 的 学 科 包 括 量子 化 学 、 物 质 科 学 、 结 构 力 学 和 医学 图 像 处 理 等 。 

计算 机 模拟 已 成 为 学 术 和 工业 界 大 多 数 研 究 领 域 中 不 可 或 缺 的 标准 工具 ， 虽 然 科 研 人 员 
可 以 利用 个 人 计算 机 处 理 许多 计算 任务 ， 但 是 仍 有 一 些 任务 需要 个 人 计算 机 无 法 满足 的 大 规 
模 存 储 、 内 存 以 及 计算 速度 ， 而 这 正 是 高 性 能 并 行 计 算 机 系统 的 用 武之 地 。 

利用 高 性 能 计算 (High Performance Computing, HPC) 作为 科研 工具 至 少 需要 了 解 相 关 
便 件 和 软件 知识 ， 即 使 利用 具有 恨 好 界面 可 直接 运行 的 软件 也 是 如 此 ， 当 需要 编写 代码 时 和 车 
握 这 些 知识 就 显得 更 为 必要 。 但 是 我 们 与 科学 家 和 工程 师 多 年 的 合作 经 验 表明 ， 很 难 在 不 同 
研究 组 中 建立 和 维护 充足 、 完 整 的 相关 知识 。 陡 峭 的 高 性 能 计算 学 习 曲 线 使 得 新 的 博士 生 难 
以 独 目 快速 掌握 相关 知识 。 虽 然 高 性 能 计算 具有 基础 性 、 难 以 掌握 且 极 为 昂贵 等 特点 ， 但 是 
高 性 能 计算 毕竟 只 是 一 个 工具 ， 而 推进 科学 研究 的 进展 才 是 终极 目标 。 技 术 的 进步 使 得 高 性 
能 计算 从 院 系 级 别 扩展 到 了 桌面 级 别 ， 在 当前 单 处 理 器 发 展 停滞 以 及 通过 增加 并 行 性 来 提高 
性 能 的 趋势 下 ， 大 量 科 学 家 和 工程 师 必须 关注 性 能 和 可 扩展 性 ， 这 也 是 本 书 的 主题 。 我 们 编 
写 此 书 的 目的 为 保持 这 些 知识 的 新 颖 性 。 

事实 上 ， 目 前 已 经 出 版 了 多 种 计算 机 体系 结构 、 优 化 和 高 性 能 计算 方面 的 书籍 [S1， 
R34，S2，S3，S4]， 虽 然 基 本 原理 是 一 致 的 ， 但 是 由 于 向 量 处 理 融 的 衰落 、 无 处 不 在 的 
SIMD 处 理 能 力 、 多 核 处 理 器 的 出 现 、ccNUMA 存储 结构 的 发 展 以 及 高 效能 高 性 能 网 络 互 连 
系统 的 出 现 ， 这 些 书 中 的 许多 内 容 都 已 过 时 。 发 展 最 为 迅猛 的 要 数 运行 Linux 操作 系统 的 基 
于 x86 结构 的 Intel 或 AMD 处 理 器 商业 集群 。 最 新 的 出 版 物 更 关注 某 个 特定 方面 ， 因 此 不 
适合 作为 学 生 教 材 或 者 相关 科学 家 参考 。 本 书 的 目标 是 从 性 能 角度 介绍 体系 结构 和 高 性 能 计 
算 编 程 的 基础 知识 。 我 们 的 经 验 表明 ， 大 多 数 用 户 经 常 无 法 定位 性 能 因素 以 及 是 否 需要 考虑 
优化 。 本 书 的 读者 可 以 掌握 如 何 确 定性 能 限制 因素 等 基础 知识 ， 这 为 他 们 学 习 更 为 专业 的 技 
巧 黄 定 了 基础 。 因 此 本 书 也 提供 了 一 个 详尽 的 参考 书目 列表 ， 可 以 在 本 书 的 网 页 中 (http:/ 
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www.hpc.rrze.uni-erlangen.de/HPC4SE) 找到 相应 的 具有 超 链 接 和 附加 评论 的 版 本 。 


本 书 读者 

在 科学 计算 中 心 的 多 年 工作 经 验 使 我 们 熟知 用 户 和 并 行 计算 机 厂商 的 需求 ， 因 此 从 事 与 
高 性 能 计算 相关 工作 的 人 员 都 会 从 本 书 中 获 益 。 计 算 机 科学 、 计 算 工 程 或 更 广泛 的 关心 模拟 
领域 的 教师 和 学 生 可 将 本 书 作为 教材 。 对 于 希望 快速 了 解 高 性 能 计算 基础 知识 的 科学 家 和 工 
程 师 ， 本 书 可 以 作为 入 门 级 参考 书 。 最 后 ， 集 群 系统 构建 师 可 以 利用 本 书 的 内 容 优化 机 天 ， 
为 用 户 提供 更 好 的 服务 。 读 者 需要 具有 一 定 的 编程 和 高 级 计算 机 体系 结构 知识 。 需 要 强调 的 
是 ， 本 书 只 是 一 本 和 人 门 级 教材 而 不 是 一 本 详尽 的 参考 书 ， 因 为 到 目前 还 没有 一 本 高 性 能 计算 
百科 全 书 。 


本 书 内 容 


高 性 能 计算 涉及 给 定 算法 (或 者 称 为 程序 代码 ) 的 实现 以 及 所 运行 的 硬件 平台 。 我 们 假 
定 希望 利用 高 性 能 计算 资源 的 用 户 已 经 充分 了 解 他 们 想 要 解决 的 问题 的 不 同 算法 ， 因 此 我 们 
并 不 全 面 介绍 它 们 。 本 书 中 我 们 选取 某 些 特定 实例 进行 讲解 ， 但 是 可 能 存在 其 他 更 为 合适 的 
算法 ， 读 者 需要 理解 本 书 实例 中 的 策略 。 

虽然 我 们 努力 保持 本 书 的 精简 性 ， 但 是 不 可 避免 地 包含 了 过 多 的 内 容 。 由 于 技术 发 展 极 
为 迅猛 ， 我 们 忽略 了 一 些 近 期 的 研究 成 果 ， 例 如 现代 加 速 技术 (GPGPU、FPGA、Cell 处 理 
器 )， 因 为 这 些 内 容 很 快 将 会 变 得 过 时 。 有 些 人 认为 高 性 能 输入 、 输 出 技术 应 该 包含 在 高 性 
能 计算 书籍 中 ， 但 是 我 们 认为 高 效 并 行 IO 技术 是 一 个 高 级 并 且 与 硬件 系统 相关 的 课题 ， 所 
以 最 好 单独 介绍 。 在 软件 方面 ， 我 们 介绍 了 基本 的 程序 串 行 优化 策略 和 基本 并 行 模式 : 基 
于 OpenMP 的 共享 存储 并 行 化 、 基 于 MPI 的 分 布 式 存储 并 行 编程 。 其 他 一 些 模式 ， 包 括 
Unified Parallel C (UPC 语言 )、Co-Array Fortran (CAF 语言 ) 和 其 他 一 些 现 代 编 程 方法 ， 仍 
然 需 要 检验 其 高 效 性 ， 就 像 被 广泛 接受 的 MPI 和 OpenMP 语言 一 样 。 

虽然 我 们 不 能 忽视 商业 系统 的 统治 性 地 位 ， 但 本 书 中 许多 概念 都 在 与 特定 的 体系 结构 无 
关 的 层次 上 进行 介绍 ， 因 此 当 我 们 应 用 实例 介绍 并 展示 实际 性 能 数值 时 ， 都 是 基于 x86 集群 
系统 标准 网 络 连接 。 几 乎 所 有 的 代码 都 用 Fortran 编写 ， 仅 当 需 要 与 外 界 环境 相关 的 特性 时 
我 们 才 用 C 或 者 C++ 代码。 本 书 中 一 些 用 来 测试 的 代码 可 以 在 本 书 官方 网 站 上 下 载 : http:/ 
www.hpc.rrze.unierlangen.de/HPC4SE., 

本 书 按 下 述 方式 组 织 : 第 1 章 介绍 现代 基于 高 速 缓存 的 微 处 理 器 体系 结构 ， 并 讨论 其 内 
在 性 能 瓶颈 ， 对 最 新 的 发 展 〈 例 如 多 核 芯片 和 同时 多 线程 (SMT)) 也 进行 了 介绍 。 虽 然 向 量 
处 理 需 已 不 再 在 高 性 能 计算 市 场 中 应 用 ， 但 是 我 们 还 是 对 其 进行 了 简要 介绍 。 第 2 章 和 第 3 
章 讲 解 了 基于 高 速 缓存 体系 结构 的 串 行程 序 的 一 般 优 化 方法 ， 介 绍 了 用 来 寻找 循环 程序 最 优 
性 能 的 一 些 简单 的 模型 ， 还 展示 了 如 何 通过 代码 变换 来 改进 其 性 能 限制 。 实 际 上 ， 我 们 认为 
在 不 同 计算 机 系统 层次 上 建立 应 用 程序 的 性 能 模型 是 最 为 重要 的 工作 ， 也 是 高 性 能 计算 领域 
中 的 引导 性 原理 。 

第 4 章 介绍 共享 存储 和 分 布 式 存储 两 种 类 型 的 并 行 计 算 机 体系 结构 ， 以 及 相关 网 络 拓扑 
结构 。 第 5 章 在 理论 层次 上 介绍 并 行 计算 概念 ， 首 先 介绍 一 些 重要 的 并 行 编程 模式 ， 然 后 介 
绍 能 够 解释 并 行 可 扩展 性 限制 的 性 能 模型 ， 因 此 回答 了 利用 低速 处 理 器 构建 大 规模 并 行 计算 
机 系统 的 原因 和 方式 。 第 6 章 对 OpenMP 进行 了 介绍 ，OpenMP 是 在 共享 存储 系统 上 编写 
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科学 计算 应 用 的 主流 语言 。 第 7 章 介 绍 了 几 种 典型 的 与 OpenMP 相关 的 程序 性 能 问题 并 给 
出 了 相应 的 避免 或 减轻 问题 的 方法 。 由 于 缓存 一 致 的 非 一 致 内 存 访问 (cceNUMA) 系统 已 经 
大 规模 应 用 在 高 性 能 计算 的 市 场 中 (这 也 是 被 忽视 的 事实 ， 其 至 一 些 高 性 能 计算 专家 也 将 其 
忽视 )， 相 应 的 优化 技术 在 第 8 章 介 绍 。 第 9 章 和 第 10 章 介 绍 分 布 式 系统 上 的 消息 传递 接口 
语言 (Message Passing Interface, MPI) 以 及 如 何 编写 高 效 MPI 代码 。 最 后 ， 第 11 章 介 绍 
MPI 和 OpenMP 混合 编程 方法 。 每 章 最 后 都 配备 相应 的 习题 ， 我 们 推荐 读者 认真 研究 ， 这 
些 习 题 包括 一 些 书 中 未 介绍 的 零碎 知识 或 者 一 些 特定 的 主题 。 附 录 B 提供 了 相应 的 答案 。 

我 们 建议 读者 从 头 到 尾 认 真 阅读 本 书 ， 因 为 本 书 的 主题 都 极为 重要 。 但 是 只 想 了 解 
OpenMP 和 MPI 的 读者 可 以 只 从 第 6 章 和 第 9 章 开始 阅读 ， 并 从 第 7 草 、 第 8 章 和 第 10 草 
中 学 习 相 应 的 优化 技术 。 本 书 自 引 用 比较 多 ， 所 以 如 果 忽 略 了 某 些 部 分 ， 也 可 以 在 其 他 地 方 
找到 相关 材料 。 
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ASCII ( American Standard Code For Information 
Interchange) 美国 标准 信息 交换 代码 

ASIC ( Application-Specific Integrated Circuit) & 
用 集成 电路 

BIOS ( Basic Input/Output System) 基本 输入 / 输 
出 系统 

BLAS (Basic Linear Algebra Subroutines) 基本 线 
性 代数 子 程序 

CAF (Co-Array Fortran) co-array Fortran 

ccNUMA (cache-coherent NonUniform Memory 
Access) 缓存 一 致 的 非 一 致 内 存 访 问 

CFD ( Computational Fluid Dynamics) 计算 流体 
力学 

CISC ( Complex Instruction Set Computer) 复杂 指 
令 集 计算 机 

CL (Cache Line) 高 速 缓存 行 

CPI (Cycles Per Instruction) 指令 周期 

CPU (Central Processing Unit) 中 央 处 理 需 

CRS (Compressed Row Storage) 压缩 行 存 储 

DDR (Double Data Rate) JUPPE RK 

DMA (Direct Memory Access) 直接 内 存 访问 

DP (Double Precision) XO JE 

DRAM (Dynamic Random Access Memory) 动态 
随机 存 取 内 存 

ED (Exact Diagonalization) 精确 对 角 化 

EPIC ( Explicitly Parallel Instruction Computing ) 
显 式 并 行 指令 计算 

Flop (Floating-point operation) 浮 点 运算 

FMA (Fused Multiply-Add) 混合 乘 加 

FP (Floating Point) 浮 点 

FPGA ( Ficld-Programmable Gate Array) 现场 可 
编程 逻辑 门 阵列 

FS (File System) 文件 系统 

FSB (FrontSide Bus) 前 羡 总 线 

GCC (GNU Compiler Collection) GNU 编译 需 
集合 
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GE (Gigabit Ethernet) 千 兆 以 太 网 

GigE (Gigabit Ethernet) 千 兆 以 太 网 

GNU (GNU is not UNIX) GNU 

GPU (Graphics Processing Unit) 图 形 处 理 单元 

GUI (Graphical User Interface) 图 形 用 户 界 面 

HPC (High Performance Computing) 高 性 能 计算 

HPF ( High Performance Fortran) 高 性 能 Fortran 
语言 

HT (HyperTransport) 超 传输 

IB (InfiniBand) infiniband 

ILP (Instruction-Level Parallelism) 指令 级 并 行 

IMB (Intel Mpi Benchmarks) 英特尔 MPI 基 准 
测试 

I/O (Input/Output) 输入 /输出 

IP (Internet Protocol) 互联 网 协议 
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LII (Level 1 Instruction cache) 1 级 指令 缓存 
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LD (Load) 加 载 

LIKWID (Like I Knew What I am Doing) 就 像 我 
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LRU (Least Recently Used ) 最 近 最 少 使 用 策略 

LUP (Lattice site UPdate) 网 格 更 新 

MC (Monte Carlo) 蒙特 卡 洛 方法 

MESI ( Modified/Exclusive/Shared/Invalid) 修改 / 
专 有 /共享 /无效 (缓存 一 致 性 协议 状态 ) 

MI (Memory Interface) 存储 需 接 口 

MIMD (Multiple Instruction Multiple Data) 多 指 

MIPS ( Million Instructions Per Second) 每 秒 百 万 
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MMM (Matrix-Matrix Multiplication) EREE PEJE 


MPI (Message Passing Interface) 消息 传递 接口 

MPMD ( MultiPle Program Multiple Data) 多 程序 
流 多 数据 流 

MPP (Massively Parallel Processing ) 大 规模 并 行 
处 理 

MVM (Matrix-Vector Multiplication) 和 矩阵 向 量 乘 

NORMA (NO Remote Memory Access) 非 远 程 存 
储 访问 

NRU (Not Recently Used) 最 近 未 使 用 算法 

NUMA (NonUniform Memory Access) 非 一 致 内 
存 访问 

OLC (Outer-Level Cache) 外 级 缓存 

OS (Operating System) 操作 系统 

PAPI (Performance Application Programming 
Interface) 应 用 程序 性 能 编程 接口 

PC (Personal Computer) 个 人 电脑 

PCI ( Peripheral Component Interconnect) ”外围 组 
件 互 连 

PDE (Partial Differential Equation) 偏 微 分 方程 

PGAS ( Partitioned Global Address Space ) 分 割 
全 局 地 址 空间 

PLPA ( Portable Linux Processor Affinity) 可 移植 
Linux 处 理 融 亲缘 性 

POSIX ( Portable Operating System Interface for 
uniX) 可 移植 操作 系统 接口 UNIX ) 

PPP ( Pipeline Parallel Processing) 流水 线 并 行 
处 理 

PVM (Parallel Virtual Machine) 并 行 虚拟 机 


QDR (Quad Data Rate) 4 倍数 据 倍率 

QPI (Quick Path Interconnect) 快速 路 径 互 连 

RAM (Random Access Memory) 随机 访问 内 存 

RISC ( Reduced Instruction Set Computer) 精简 指 
令 集 计算 机 

RHS (Right Hand Side) 右 端 项 

RFO (Read For Ownership) 所 有 者 处 理 

SDR (Single Data Rate) 单 倍 数据 速率 

SIMD ( Single Instruction Multiple Data) 单 指 令 
流 多 数据 流 

SISD ( Single Instruction Single Data) 单 指令 流 单 
数据 流 

SMP (Symmetric MultiProcessing) 对称 多 人 处理 

SMT (Simultaneous MultiThreading) 同步 多 线程 

SP (Single Precision) 单 精 度 

SPMD ( Single Program Multiple Data) 单程 序 流 
多 数据 流 

SSE (Streaming SIMD Extensions) SIMD 流 指 今 
扩展 

ST (STore) 存储 

STL (Standard Template Library) 标准 模板 库 

SYSV (UNIX System V) UNIX 系统 V 

TBB (Threading Building Blocks) TBB 语言 

TCP ( Transmission Control Protocol) 传输 控制 
协议 

TLB (Translation Lookaside Buffer) 旁 路 缓冲 器 

UMA (Uniform Memory Access) ”一致 内 存 访问 

UPC (Unified Parallel C) UPC 语言 
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| 第 工 章 


Introduction to High Performance Computing for Scientists and Engineers 


当代 处 理 硕 





在 1975 ~ 1995 年 的 “旧时 代 ” 的 科学 计算 时 期 ， 先 进 的 高 性 能 系统 是 专门 为 HPC 市 
场 设计 的 ， 主 要 的 厂商 有 Cray, CDC, NEC, Fujitsu 和 Thinking Machines 等 。 在 性 能 和 
价格 方面 ， 这 些 系 统 远 远 超越 了 标准 的 “商品 ”电脑 。20 世纪 70 年 代 初 发 明 的 单 必 片 通用 
微 处 理 器 ， 是 20 世纪 80 年 代 末 唯一 足够 成 熟 、 可 以 打 入 HPC 市 场 的 技术 。 直 到 20 世纪 
90 年 代 未 ， 标 准 的 工作 站 集群 甚至 基于 PC 的 硬件 至 少 在 理论 峰值 性 能 上 才 具 备 相应 的 竞争 
力 。 如 今 ， 情 况 已 经 发 生 了 很 大 变化 。HPC 世界 被 低 成 本 、 现 成 的 处 理 器 系统 占领 ， 这 些 系 
统 并 不 是 主要 为 科学 计算 而 设计 的 。 一 些 传统 的 超级 计算 机 厂商 在 这 个 有 利 可 图 的 市 场 上 活 
动 ， 他 们 提供 在 单 CPU 水 平 上 的 高 应 用 性 能 以 及 高 度 并 行 工作 负载 的 系统 。 因 此 ， 科 学 家 
和 工程 师 很 可 能 遇 到 这 样 的 “商品 模式 ”， 即 随 着 需求 的 增长 推动 硬件 回 更 为 专业 的 方 回 发 
展 。 因 此 ， 本 章 将 主要 关注 基于 标准 的 高 速 缓存 微 处 理 需 的 系统 。 回 量 机 (vector computer) 
支持 不 同 的 编程 方式 ， 这 种 编程 方式 在 很 多 方面 更 接近 科学 计算 的 要 求 ， 但 是 目前 向 量 机 已 
非常 罕见 。 然 而 如 果 没 有 它们 ， 对 超级 计算 机 体系 结构 的 讨论 将 不 完整 ，1.6 节 对 此 提供 了 
相关 的 概述 。 


1.1 存储 程序 的 计算 机 体系 结构 


当 讨 论 计 算 机 系统 时 ， 我 们 的 脑海 中 总 是 有 一 
个 清楚 的 体系 结构 概念 ， 即 1936 年 由 图 灵 提 出 并 由 
Eckert 和 Mauchly 实现 的 第 一 个 真正 的 计算 机 EDVAC 
[C129,C131]。 图 1-1 显示 了 存储 程序 数字 计算 机 的 简 
图 ， 将 指令 作为 数据 存储 在 内 存 ， 这 是 它 不 同 于 早期 | 
设计 的 最 大 特征 。 指 令 由 控制 单元 读 取 并 执行 ， 一 个 “图 1L1 存储 程序 计算 机 体系 结构 概念 。 
独立 的 算术 逻辑 单元 根据 指令 来 负责 实际 的 计算 并 操 将 程序 指令 作为 数据 存储 在 内 存 
作 内 存 中 的 数据 。 通 过 IO 设备 可 以 与 用 户 通信 。 中 央 
处 理 单元 (CPU) 包括 控制 单元 、 算 术 逻 辑 单元 、 适 合 的 内 存 接 口 和 IO 接口。 在 存储 程序 
计算 机 上 编程 意味 着 修改 内 存 中 的 指令 ， 原 则 上 这 可 以 由 另 一 个 程序 完成 。 编 译 器 就 是 一 个 
典型 的 例子 ， 因 为 它 将 C 或 Fortran 等 高 级 语言 翻译 成 能 够 在 内 存 中 存储 并 能 被 计算 机 执行 
的 指令 。 
这 个 简 图 是 现今 所 有 主流 的 计算 机 系统 的 基础 ， 但 仍然 存在 一 些 固 有 问题 : 
T 必须 连续 不 断 地 向 控制 和 算术 逻辑 单元 提供 数据 ， 因 此 内 存 接 口 速度 成 为 计算 性 能 
MRR, DOBRA AG - KSI. RP ROR DP, 我们 将 展示 如 何 利用 体 
系 结 构 优 化 和 编程 技术 减弱 这 个 瓶颈 导致 的 不 利 影响 。 尽 管 如 此 ， 这 个 瓶颈 仍然 是 
最 严重 的 性 能 限制 因素 。 
a 这 种 体系 结构 存在 内 在 顺序 性 ， 一 条 指令 可 能 处 理 来 自 内 存 的 一 个 或 一 组 操作 数 。 
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SISD ( 单 指令 单数 据 ，Single Instruction Single Data) 即 为 这 种 概念 。 如 何 修改 和 扩 
展 使 得 它 能 够 以 多 种 不 同方 式 支持 并 行 ， 以 及 这 样 一 个 并 行 机 如 何 能 够 有 效 运 用 ， 
同样 是 这 本 书 的 主题 。 
尽管 存在 着 这 些 缺 陷 , 但 没有 其 他 的 体系 结构 概念 能 在 将 近 70 年 的 电子 数字 计算 机 中 
如 此 广泛 地 使 用 。 


12 ”基于 高 速 缓存 的 通用 微 处 理 器 体系 结构 


微 处 理 需 可 能 是 人 类 发 明 的 最 复杂 的 机 器 。 然 而 ， 就 像 前 面 章 节 中 描述 的 那样 ， 它 们 都 
基于 存储 程序 数字 计算 机 的 概念 。 对 于 科学 家 而 言 ， 理 解 CPU 所 有 内 部 工作 细节 是 不 可 能 
的 ， 也 是 不 必要 的 ， 尽 管 把 握 其 高 级 特性 对 于 了 解 潜在 的 性 能 瓶颈 是 有 帮助 的 。 图 1-2 展示 
了 现代 基于 高 速 缓存 的 通用 微 处 理 器 的 简 图 。 对 于 一 个 运行 的 程序 ， 真 正 执行 计算 的 部 分 
是 仅 占 芯片 一 小 部 分 的 浮 点 型 (FP) 和 整 型 (INT) 计算 单元 。 其 他 逻辑 控制 单元 用 来 向 计 
算 单 元 提供 操作 数 。 一 般 将 CPU 寄存 器 区 分 为 浮 点 数 和 整数 两 种 类 型 ，CPU 寄存 器 能 够 存 
放 指 令 访问 所 需 操 作 数 ， 这 样 在 数据 访问 时 没有 明显 的 延 时 。 在 一 些 体系 结构 中 ， 所 有 算术 
运算 的 操作 数 都 必须 存放 在 寄存 器 中 。 如 今 ， 主 流 CPU 有 16 到 128 个 两 种 类 型 的 寄存 器 。 
Store (ST) 和 Load (LD) 单元 执行 寄存 器 存 取 指令 ， 待 执行 指令 被 保存 到 多 个 队列 中 ， 这 
些 指令 可 能 会 被 乱 序 执行 。 最 后 ， 高 速 缓存 保存 即将 执行 的 指令 和 数据 。 而 芯片 的 主要 部 分 
就 是 高 速 缓存。 





INT/FP 队列 


L1 指令 
高 速 缓存 


图 1-2 ”典型 的 基于 高 速 缓存 的 微 处 理 器 ( 单 核 ) 的 简单 框图 。 同 一 芯片 上 的 其 他 核能 够 共享 高 速 
缓存 和 内 存 接口 等 资源 。 与 科学 计算 性 能 相关 的 功能 模块 和 数据 通路 在 图 中 突出 显示 了 
许多 额外 逻辑 ,包括 分 支 预测 、 缓 冲 区 重 排 、 数 据 旁 路 、 事 务 队 列 等 ， 已 经 应 用 
到 现代 微 处 理 器 中 ， 在 此 我 们 不 进行 讨论 。 供 应 商 提 供 了 许多 文档 描述 这 些 技术 细节 
[V104,V105,V106]。 在 过 去 十 年 中 ， 多 核 处 理 器 已 经 取代 了 传统 单 核 处 理 器 设计 模式 。 在 多 
核 必 片 上， 多 个 处 理 器 (“ 核 ”) 同时 执行 代码 。 它 们 能 够 像 存储 器 接口 或 高 速 缓存 一 样 ， 在 
不 同 程 度 上 共享 资源 ， 详 细 内 容 见 1.4 节 。 


1.2.1 性 能 指标 和 基准 测试 
峰值 性 能 是 CPU 核心 所 有 组 件 同 时 执行 时 的 最 高 性 能 。 一 个 特定 的 应 用 程序 能 否 达 到 
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峰值 取决 于 许多 因素 ( 详 见 第 3 章 内 容 )。 这 里 ， 我 们 介绍 一 些 衡量 CPU 利用 率 的 基本 性 能 
指标 。 科 学 计算 通常 使 用 “ 双 精 度 ”( DP) 浮 点 数 运算 ，FP 单元 的 性 能 测量 标准 是 每 秒 执行 
多 少 次 浮 点 乘法 和 加 法 运算 ( Flop/s， 浮 点 数 运 算 次 数 / 秒 )。 由 于 更 复杂 运算 (除法 、 平 方 
根 、 三 角 函 数 等 ) 与 乘法 及 加 法 共享 计算 资源 ， 并 且 执 行 效率 很 低 ， 对 于 实际 性 能 衡量 没有 
意义 ( 见 第 2 章 )， 因 此 高 性 能 软件 应 该 尽量 避免 调用 这 样 的 操作 。 在 本 书写 作 时 ， 标 准 商 
用 微 处 理 器 通常 在 每 个 时 钟 周 期 最 多 完成 两 个 或 四 个 双 精 度 浮 点 计算 。 在 时 钟 频率 为 2 一 3 
GHz 时 ， 峰 值 为 每 核 4 一 12GFlop/s. 

如 上 所 述 ， 向 运算 单元 提供 操作 数 是 一 项 复杂 的 工作 。 从 程序 员 的 角度 看 ， 最 重要 的 数 
据 通路 是 从 高 速 缓存 到 主 存 。 性 能 指标 用 数据 带宽 即 GB/s 来 衡量 。GFlop/s 和 GB/s 通常 是 
衡量 微 处 理 器 性 能 的 主要 指标 ?>。 因 此， 如 图 1-3 所 示 ， 从 一 个 关注 性 能 的 程序 员 角 度 看 ， 一 
个 基于 高 速 缓存 的 微 处 理 器 是 以 数据 为 中 心 的 ， 计 算 或 某 种 算法 通常 由 数据 项 的 操作 决定 。 
然而 ， 算 法 的 具体 实现 受到 硬件 数据 通路 的 性 能 限制 ， 特 别 是 主 存 。 





图 1-3 左 图 是 一 个 基于 高 速 缓存 的 微 处 理 器 的 存储 层次 结构 简 图 (在 所 有 的 体系 结构 中 不 能 
直接 从 寄存 器 到 内 存 进 行 数据 传输 )， 通 常 有 一 个 单独 的 L1 高 速 缓存 存储 指令 。 右 图 
中 的 “DRAM gap ”展示 了 主 存 与 高 速 缓存 之 间 带 宽 的 巨大 差异 。 这 个 模型 必须 映射 
为 具体 应 用 的 访 存 模式 


通常 用 低级 别 的 基准 测试 衡量 处 理 器 或 者 系统 的 性 能 特征 ， 即 只 测量 系统 中 某 些 特征 
的 程序 ， 比 如 峰值 性 能 或 存储 带宽 等 。 一 个 突出 的 例子 是 由 Schonauer 提出 的 三 维 向 量 算 法 
[S5]。 它 包括 一 个 藤 套 循环 ， 循 环 内 执行 一 个 三 维 向 量 的 复合 乘法 ， 并 将 结果 保存 在 第 四 个 
向 量 中 ( 见 代码 清单 1-1 中 的 10 ~ 15 行 )。 该 基准 测试 的 目的 是 衡量 处 理 器 的 内 存 和 运算 
单元 之 间 的 数据 传输 性 能 。 在 内 循环 中 ,3 个 10ad 流 B、C 和 D 以 及 一 个 store Ñi A 是 活跃 
的 ， 根 据 N 的 不 同 ， 该 循环 的 时 间 可 能 非常 短 而 难以 衡量 。 外 部 循环 再 重复 R 次 ， 以 使 执 
行 时 间 变 得 足够 长 而 能 被 精确 测量 。 实 际 中 ， 人 们 往往 会 根据 N 而 选择 及 ， 从 而 使 得 总 体 
的 执行 时 间 保 持 不 变 。 


提请 注意 ， 当 与 带宽 和 运算 性 能 等 一 起 用 时 ，G 、M 分 别 表 示 10° 和 105， 但 是 一 般 情 况 下 G、M 表示 2 的 多 
少 次 方 ， 例 如 1MB = 27° 4%. 
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代码 清单 1-1 三 维 向 量 算 法 基准 测试 的 简单 代码 ， 包 括 性 能 评估 
ı double precision, dimension(N) :: A,B,C,D 
2 double precision :: S,E,MFLOPS 
3 
4 do i=1,N ‘initialize arrays 
5 A(i) = 0.d0; B(i) = 1.d0 
6 C(i) = 2.d0; D(i) = 3.d0 
7 enddo 
8 
9 call get_walltime (S) ! get time stamp 
i0 do j=1,R 
11 do i=1,N 
12 A(i) = B(i) + C(i) * D(i) ! 3 loads, 1 store 
13 enddo 
14 if (A(2).1t.0) call dummy (A,B,C,D) ! prevent loop interchange 
is enddo 
16 call get_walltime (E) ! get time stamp 
17 MFLOPS = R*N*2.d0/((E-S)*1.d6) ! compute MFlop/sec rate 


调用 dummy() 子 程序 的 目的 是 阻止 编译 器 优化 。 没 有 调用 的 话 ， 编 译 需 会 发 现 ， 内 层 
循环 和 外 层 循 环 指数 j 是 完全 无 关 的 ， 从 而 删除 外 层 循 环 。 对 dummy() 的 调用 使 得 编译 器 认 
为 ， 这 些 数组 可 能 在 外 层 循环 之 间 变 换 ， 这 有 效 地 防止 了 优化 ， 并 且 因 为 让 语 句 条 件 总 是 
非 真 (这 个 编译 器 不 知道 )， 所 以 调用 dummy() 的 开销 可 以 忽略 不 计 。 

MFLOPS 变量 是 指 计算 整个 循环 姐 套 的 MFlop/s。 请 注意 ， 在 基准 测试 中 最 合理 的 时 间 
单位 是 墙 上 时 间 (wallclock time)， 也 称 为 逝去 时 间 (elapsed time)。 系 统 提供 的 任何 其 他 计量 
时 间 方 式 很 容易 产生 误解 ， 因 为 可 能 计量 了 包含 1/ O、 上 下 文 切换 、 其 他 进程 开销 等 的 时 
间 ， 这 不 应 该 计算 在 CPU 时 间 之 中 。 对 于 并 行程 序 时 间 的 计量 更 是 如 此 ( 见 第 5 章 )。 像 上 
面 提 到 的 三 维 回 量 基 准 测 试 中 用 到 的 时 间 计 量 方法 是 一 个 比较 常用 的 方法 ， 如 代码 清单 1-2 
所 示 。 提 供 具 有 和 不 具有 强调 功能 的 两 个 版 本 ， 是 因为 Fortran 常常 对 子 程序 名 称 给 予 强 调 。 
有 了 这 两 个 有 效 版 本 ， 使 得 将 编译 过 的 C 代码 链接 到 Fortran 或 者 C 语言 主 程序 上 总 是 可 行 。 

代码 清单 1-2 基于 POSIX gettimeofday() 功能 的 C 程序 墙 上 时 间 。 在 Windows 操作 系统 中 ， 
GetSystemTimeAsFileTime() 函数 具有 相同 的 功能 


#include <sys/time.h> 


1 
2 
3 void get_walltime_(double* wcTime) i 

4 struct timeval tp; 

5 gettimeofday (&tp, NULL) ; 

6 xwcTime = (double) (tp.tv_sec + tp.tv_usec/1000000.0); 
P 

8 

9 

0 

] 


} 


void get_walltime (doublex* wcTime) { 
get_walltime_(wcTime) ; 


} 
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俩 上 的 性 能 。 在 非常 小 的 循环 上 ， 无 论 哪 种 类 型 的 CPU 或 体系 结构 计算 性 能 都 很 差 ， 但 是 
随 着 N 的 增 大 ， 标 准 微 处 理 器 的 计算 性 能 一 直 增 加 到 最 高 性 能 ， 随 后 骤然 下 降 。 最 后 ， 对 
于 非常 大 的 循环 ， 性 能 保持 恒定 。 这 些 特性 将 在 1.3 节 详 细 分 析 。 

H ee Ah Bas (E 1-4 中 的 虚线 ) 显示 出 突出 的 特征 。 它 的 低 性 能 区 域 延 伸 得 比 基 于 高 速 
缓存 的 微 处 理 器 更 远 ， 但 是 它 完全 没有 等 于 0。 我 们 得 出 这 样 的 结论 : 向 量 系统 对 于 标准 的 
CPU 具有 互补 性 ， 因 为 不 同 的 CPU 用 在 不 同 领域 (1.6 节 详 细 介 绍 向 量 处 理 器 体系 结构 ) 。 
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然而 在 实际 的 代码 优化 中 ， 也 许 能 够 通过 避免 低 性 能 区 域 来 提高 性 能 (详细 内 容 介 绍 见 第 2 
章 和 第 3 章 )。 


4000 


3000 … -一 - Netburst3.2 GHz (2004) 
"= — core230GHz (2006) 
a | Core i7 2.93 GHz (2009) 
È 2000 | ae -++ NEC SX-8 2.0 GHz 
= 





10' 10° 10° 10° 10° 10° 10’ 


图 1-4 一 些 英特尔 系列 处 理 器 (时钟 频率 和 生产 年 份 在 图 中 已 经 标 出 ) Al NEC SX-8 向 量 处 理 
器 对 串 行 三 维 向量 算 法 的 性 能 与 循环 长 度 。 后 续 章 节 将 解释 不 同性 能 的 详细 特点 


低层 次 的 基准 测试 是 获得 处 理 咒 基本 性 能 信息 的 有 力 工 具 。 然 而 它们 不 能 够 准确 地 预测 
出 每 一 个 实际 应 用 程序 的 运行 情况 。 为 了 确定 某 些 CPU 或 体系 结构 是 否 能 够 很 好 地 适应 一 
些 应 用 程序 〈 例 如 ， 在 采购 前 或 在 为 一 个 计算 机 时 间 写 建议 前 )， 唯 一 安全 的 方法 是 制定 应 
用 基准 测试 。 这 意味 着 ， 应 用 程序 代码 运行 时 会 需要 一 些 输入 参数 ， 这 些 参数 能 真实 地 反映 
实际 运行 的 要 求 。 应 该 基于 大 量 应 用 基准 测试 决定 支持 或 反对 一 个 体系 结构 。 像 SPEC 这 种 
标准 的 测试 基准 只 能 作为 一 个 粗糙 的 指南 [W118]。 


1.2.2 晶体管: 摩尔 定律 


台式 机 出 现 之 前 的 计算 技术 已 经 被 广泛 用 于 具有 大 量 计 算 需 求 的 科学 计算 中 ， 在 超过 
30 年 的 时 间 里 ， 无 论 哪 种 技术 构造 的 计算 机 芯片 ， 它 们 的 复杂 性 或 通用 能 力 每 24 个 月 大 约 
翻 一 倍 ， 这 一 趋势 称 为 摩尔 定律 。 英 特 尔 公 司 创始 人 之 一 Gordon Moore, 在 1965 年 预测 一 
个 芯片 上 可 以 容纳 的 最 小 品 体 管 数量 将 会 按照 预测 的 速率 增长 [R35]。 尽 管制 造 技术 已 经 发 
生 了 质 的 变化 ， 但 这 一 规律 从 20 世纪 60 年 代 早 期 一 直 持续 到 现在 。 令 人 惊讶 的 是 ， 处 理 器 
并 不 是 计算 机 的 唯一 组 成 部 分 ， 所 以 处 理 器 性 能 的 意义 仍然 存在 很 大 争议 ， 但 处 理 器 芯片 复 
杂 性 的 增长 总 是 大 约 等 同 于 计算 机 性 能 的 增长 (下文 对 这 点 有 更 多 讨论 )。 

通过 增加 芯片 中 晶体 管 的 数量 和 时 钟 频率 ， 处 理 器 的 设计 者 能 够 实现 许多 先进 的 技术 ， 
从 而 使 计算 机 应 用 性 能 得 到 改善 。 于 是 产生 了 许多 新 的 概念 : 

1 ) 流水 线 功能 单元 。 在 所 有 关于 计算 机 技术 的 创新 中 ， 流 水 线 也 许 是 最 重要 的 一 个 。 
通过 将 复杂 的 操作 〈 例 如 ， 浮 点 数 加 法 和 乘法 ) 分 解 成 能 够 在 CPU 上 不 同 的 功能 单元 执行 
的 简单 部 分 ， 可 以 提高 指令 吞吐 量 ， 即 增加 每 个 时 钟 周期 执行 的 指令 条 数 。 这 是 指令 级 并 行 
(Instruction Level Parallelism, ILP) 最 基本 的 例子 。 最 佳 的 流水 线 能 够 得 到 每 个 时 钟 周期 一 
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条 指令 的 吞吐 量 。 在 本 书写 作 时 ， 处 理 器 的 流水 线 存在 30 多 个 阶段 。 详 细 介绍 见 1.2.3 市 。 

2 ) 超标 量 体 系 结构 。 通 过 使 得 每 个 时 钟 周期 中 指令 的 吞吐 量 大 于 1， 超标 量 结构 直接 
提供 了 指令 级 并 行 。 这 需要 更 多 相同 的 功能 单元 ， 使 得 操作 能 够 同时 执行 〈 详 细 介 绍 见 1.2.4 
节 )。 现 代 微 处 理 器 实现 了 六 路 超标 量 体 系 结构 。 

3) 通过 单 指令 多 数据 ( SIMD ) 指令 达到 数据 并 行 。 通 党 针 对 特殊 寄存 器 上 的 整 型 或 浮 
点 型 向 量 数组 ，SIMD (Single Instruction Multiple Data) 指令 能 发 出 相同 的 操作 。 这 在 不 添 
加 超标 量 技术 的 情况 下 也 能 提升 算法 性 能 。 人 例如， 英特尔 SSE 系列 机 ，AMD HY 3DNow ! 
基于 Power Fil PowerPC 处 理 器 扩展 的 Altivec， 以 及 Sun 公 司 的 UltraSPARC 设计 中 的 
“VIS” 指 令 集 (详细 介绍 见 1.2.5 市 )。 

4) 乱 序 执行 。 如 果 指 令 的 操作 数 不 能 及 时 从 寄存 器 中 获得 ， 例 如 存储 系统 太 慢 跟 不 上 
处 理 器 的 速度 ， 此 时 乱 序 执 行 则 可 以 允许 执行 后 续 指 令 流 中 已 经 获得 参数 的 指令 ， 从 而 避免 
阻塞 时 间 (也 叫做 stall) 。 这 能 提高 指令 吞吐 量 ， 同 时 使 得 编译 需 的 代码 组 织 和 性 能 优化 更 
加 简单 。 通 过 使 用 重 排序 缓冲 区 来 存储 待 执 行 的 指令 直到 该 指令 适合 执行 为 止 ， 目 前 的 乱 友 
执行 设计 在 任何 时 候 都 能 够 保持 数 百 条 指令 的 执行 速率 。 

5) 更 大 的 高 速 缓 存 。 由 于 处 理 侨 和 存储 器 的 速度 差距 越 来 越 大 ( 见 1.3 节 )， 小 型 、 快 
速 的 片上 存储 右 用 来 暂 存 数据 副本 ， 这 些 刚 使 用 过 的 数据 或 者 位 置 靠 近 它 们 的 数据 可 能 很 快 
被 再 次 使 用 。 增 大 高 速 缓存 的 大 小 并 不 影响 应 用 程序 性 能 ， 但 是 仍然 需要 一 个 折 中 ， 因 为 大 
型 高 速 缓存 比 小 型 的 速度 要 慢 。 

6) 精简 指令 集 。 在 20 世纪 80 年 代 ， 指 令 集 从 CISC ( Complex Instruction Set Computer, 
复杂 指令 集 ) 转变 到 RISC (Reduced Instruction Set Computer， 精 简 指 令 集 )。 在 CISC 中 ， 
处 理 需 执行 的 指令 非 浓 复杂 、 功 能 强大 ， 需 要 大 型 硬件 对 指令 解码 ， 使 程序 简短 精湛 。 这 减 
轻 了 程序 员 的 负担 ， 同 时 节约 了 稀缺 的 内 存 资源 。RISC 的 特征 是 拥有 一 组 非常 简单 的 指令 
集 ， 能 够 使 程序 的 执行 非常 迅速 (每 条 指令 只 要 几 个 时 钟 周期 ， 在 极端 情况 下 能 到 达 每 条 指 
令 仅 需 一 个 时 钟 周期 )。RISC 微 处 理 需 频率 的 增长 速率 要 远 远 超过 CISC 的 增长 速率 ， 此 外 
它 能 够 节省 出 更 多 晶体 管 以 做 他 用 。 如 今 大 部 分 用 于 科学 计算 的 计算 机 系统 在 低层 都 使 用 
RISC。 而 基于 x86 的 处 理 器 虽然 执行 CISC 的 机 器 代码 ， 但 它们 却 在 内 部 将 其 转化 为 RISC 
模式 执行 。 

尽管 有 这 么 多 创新 ， 但 最 近 处 理 器 厂商 一 直面 临 着 很 大 障碍 ， 很 难 再 将 单 核 CPU 的 极 
限 性 能 推 癌 一 个 新 的 层次 。 摩 尔 定律 揭示 了 晶体 管 数量 的 稳定 增长 ， 但 是 更 加 复杂 并 不 等 价 
于 更 加 有 效 。 相 反 ， 越 多 的 功能 单元 被 设计 到 CPU 中 ， 代 码 不 使 用 它们 的 可 能 性 也 就 越 大 。 
因为 在 一 个 指令 流 中 ， 独 立 指 令 的 数量 是 有 限 的 。 此 外 ， 根 据 摩 尔 定律 ， 时 钟 频 率 的 稳定 增 
长 需要 与 单 核 性 能 保持 同步 ， 然 而 更 快 的 时 钟 会 增加 功 耗 ， 从 而 使 得 空转 晶体 管 更 加 无 用 。 

在 探索 这 个 性 能 瓶颈 解决 方法 时 ， 人 们 尝试 过 通过 放弃 一 些 系统 结构 复杂 性 以 更 加 直接 
的 思路 来 简化 处 理 希 的 设计 。 使 用 额外 的 晶体 管 以 获得 更 大 的 高 速 缓存 是 思路 之 一 ， 但 是 同 
样 存 在 着 局 限 性 ， 更 大 的 高 速 缓存 不 会 对 性 能 有 很 大 的 提升 。 多 核 处 理 器 ， 即 在 单个 晶片 或 
插 槽 上 放置 多 个 CPU 核 ， 是 如 今 大 部 分 制造 厂商 选择 的 解决 办 法 ,1.4 节 将 对 其 做 详细 讲解 。 


1.2.3 流水线 


微 处 理 天 流水 线 与 生产 装配 线 有 着 异曲同工 之 妙 。 工 人 (功能 单元 ) 不 需要 知道 最 终 产 
向 的 所 有 细 站 ， 就 能 够 熟练 、 专 业 地 完成 一 个 单一 的 任务 。 对 于 不 同 的 产品 ， 每 个 工人 一 遍 
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又 一 遍地 执行 相同 的 工作 ， 再 将 半成品 交 给 生产 线 上 的 下 一 个 工人 。 如 果 完 成 一 个 产品 需要 
m 个 不 同 的 步 又， 则 会 有 闫 个 不 同 的 产品 同时 出 现在 生产 线 的 不 同 阶段 。 如 果 生 产 线 上 所 
有 阶段 花费 的 时 间 相 同 ， 则 所 有 的 工人 会 一 直 处 于 繁忙 状态 。 最 终 在 每 个 阶段 的 时 间 内 将 会 
有 一 个 成 品 产生 。 

诸如 存 取 数据 或 浮 点 数 运 算 这 种 复杂 操作 ， 如 果 没 有 额外 的 硬件 支持 无 法 在 单个 时 间 周 
期 内 完成 。 幸 运 的 是 ， 装 配 线 的 概念 在 这 里 同样 适用 。 最 简单 的 流水 线 是 “ 取 指 令 - 分 析 
指令 - 执行 ”， 这 样 每 个 阶段 可 以 和 其 他 阶段 独立 地 分 开 。 当 执行 一 条 指令 时 ， 正 在 分 析 另 
一 条 指令 ， 而 第 三 条 指令 正在 从 指令 高 速 缓存 (LI1I) 中 取出 。 通 常 这 些 仍然 复杂 的 任务 会 被 
进一步 细 分 。 由 于 功能 单元 变 得 简单 ， 细 分 任务 可 以 获得 更 高 的 时 钟 速率 。 以 浮 点 数 运 算 为 
例 ， 如 图 1-5 所 示 ， 它 被 分 解 成 5 个 简单 的 子 任务 。 一 个 回 量 积 A(:) = B(:)*C(:)， 从 第 一 阶 
段 开始 执行 ， 对 元 素 BC) 和 C) 分 离 尾 数 和 指数 。 这 时 剩 下 的 四 个 功能 单元 是 空闲 的 。 于 
是 ， 中 间 结 果 被 交 给 第 二 阶段 ， 而 第 一 阶段 开始 处 理 B(2) 和 C(2)。 在 第 二 个 周期 中 ， 有 3/5 
的 功能 单元 仍然 是 空闲 的 。 在 第 四 个 时 钟 周期 之 后 ， 流 水 线 完 成 了 它 所 谓 的 “ 排 空 ”阶段 。 
换 名 话说， 多 级 流水 线 有 一 个 五 个 时 钟 周期 的 延迟 (或 深度 )， 过 了 这 个 时 间 ， 会 产生 第 一 
个 运算 结果 。 然 后 ， 所 有 的 功能 单元 会 一 直 处 于 工作 状态 ， 每 个 时 钟 周期 将 会 产生 一 个 结 
果 。 因 此 ， 我 们 得 到 了 每 周期 一 条 指令 的 吞吐 量 。 当 流水 线 的 第 一 阶段 完成 了 B(N) 和 CN) 
的 操作 时 ,“ 排 空 ”阶段 开始 了 。 四 个 周期 之 后 循环 结束 ， 得 到 了 所 有 的 结果 。 
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图 1-5 执行 浮 点 型 A(:) = BOC) 乘法 流水 线 的 时 间 线 。 在 四 个 周期 的 排 空 时 间 之 后 ， 
每 个 周期 都 会 产生 一 个 结果 
一 般 情况 下 ， 对 于 m 级 流水 线 ， 执 行 N 个 独立 的 连续 操作 需要 N+ m 一 1 步 。 因 此 ,对 
于 一 个 需要 m 个 时 钟 周 期 产生 一 个 结果 的 通用 单元 ， 我 们 可 以 预算 出 其 加 速 比 ， 


























Teq — mN 
T ioe ~ N+m-1 en 
对 于 很 大 的 N， 其 值 趋 近 m， 则 吞吐 量 是 : 
N l 
De oo 
] + N 


由 于 NN 很 大 ， 其 结果 接近 于 1 ( 见 图 1-6 )。 显 然 ， 由 于 排 空 阶段 的 开销 ， 为 了 达到 合理 


的 吞吐 量 ， 更 深 的 流水 线 意味 着 独立 操作 的 数量 应 该 更 大 。 
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图 1-6 流水 线 否 吐 量 与 独立 功能 部 件 个 数 的 函数 关系 。m 是 流水 线 的 深度 


容易 确定 ， 为 了 得 到 至 少 每 周期 p 的 吞吐 量 需 要 多 大 的 N(0<p<1): 
gi ba) 
= m—| =p 
N: 

当 p = 0.5 H}, N= m-1。 考 虑 到 当今 微 处 理 器 的 整体 流水 线 长 度 在 10 ~ 35 个 阶段 之 
间 ， 我 们 能 用 短小 紧 感 的 循环 很 快 找 出 代码 中 洪 在 的 性 能 瓶颈 。 对 于 超标 量 或 向 量 处 理 器 ， 
情况 会 变 得 更 加 糟糕 ， 因 为 它们 使 用 多 个 相同 的 并 行 流水 线 ， 使 得 每 个 流水 线 的 循环 长 度 
变 得 更 短 。 

关于 流水 线 的 男 一 个 问题 是 ， 执 行 诸如 FP 除法 或 是 超越 函数 这 样 的 复杂 运算 往往 有 很 
长 的 延迟 (平方根 和 除法 需要 几 十 个 周期 ， 而 三 角 函 数 需 要 更 多 其 至 超过 100 个 周期 )， 它 
们 只 有 很 少 的 流水 性 或 是 根本 无 法 流水 执行 ， 以 至 于 整个 流水 线 上 的 指令 不 得 不 被 延迟 ， 导 
致 了 所 谓 的 流水 线 气泡 。 避 免 这 一 现象 是 代码 优化 的 主要 目标 ， 这 和 其 他 相关 的 流水 线 优化 
一 起 将 在 第 2 章 谈 及 。 

需要 注意 的 是 ， 尽 管 五 级 流水 线 对 于 浮 点 数 乘 法 流水 线 并 不 是 不 可 行 ， 但 执行 真正 的 代 
码 时 会 涉及 更 多 的 操作 ， 比 如 加 载 、 存 储 、 取 值 、 译 码 及 指令 分 析 等 ， 会 与 运算 有 很 多 重 释 
部 分 。 每 个 指令 的 操作 数 必 须 从 内 存 取 到 寄存 器 ， 每 个 结果 必须 被 写 回 内 存 ， 还 需要 发 现 所 
有 可 能 的 依赖 关系 。 为 了 使 流水 线 的 各 个 阶段 更 加 有 效 ， 编 译 器 需要 安排 指令 的 执行 顺序 。 
这 对 于 顺序 执行 体系 结构 至 关 重要 ， 同 样 对 于 存在 某 些 大 量 延 迟 操作 的 乱 序 执行 的 处 理 器 也 
很 关键 。 

正如 上 面 提 到 的 ， 一 条 指令 只 有 在 其 操作 数 有 效 时 才能 够 被 执行 。 如 果 操 作 数 没有 被 
及 时 送 到 执行 单元 ， 那 么 所 有 复杂 的 流水 线 机 制 都 没有 用 。 以 下 面 的 一 个 小 规模 循环 作为 
例子 : 


1 do i=1,N 
2 A(i) = s * A(i) 
3 enddo 


从 高 级 语言 的 角度 来 看 它 很 简单 ， 然 而 这 个 循环 对 应 着 RISC 处 理 器 的 大 量 汇编 指令 。 
对 应 的 伪 代 码 如 下 : 








1 loop: load A(i) 
2 mult A(i) = A(i) * S 
3 store A(1i) 

4 ita i-t+l 

5 branch -> loop 


尽管 乘法 运算 可 以 设计 成 流水 线 ， 但 是 如 果 ACG) 上 的 加 载 操作 不 及 时 提供 数据 ， 流 水 
线 会 被 延迟 。 同 样 ， 只 有 在 乘法 操作 被 执行 以 及 得 到 有 效 结果 后 ,数据 存储 操作 才能 够 被 执 
行 。 假 设 数据 加 载 操 作 需 要 4 个 时 钟 周 期 ， 乘 法 运算 和 数据 存储 均 需 要 2 个 时 钟 周 期 ， 那 么 
很 明显 ， 上 面 的 伪 代 码 是 很 低 效 的 。 这 就 需要 捅 人 不 相关 的 循环 指令 来 避免 流水 线 的 延迟 和 
阻塞 。 

当然 ， 代 码 中 会 有 排 空 时 间 ， 在 这 里 没有 展示 。 我 们 简单 地 假设 CPU 能 够 在 单个 时 钟 
内 发 出 一 个 循环 中 的 所 有 四 条 指令 ， 并 且 循 环 变 量 的 增加 和 最 后 一 个 分 支 操 作 没 有 任何 开 
销 。 交 错 循 环 的 顺序 来 弥补 时 间 延 迟 称 为 软 流水 。 这 种 优化 需要 熟悉 处 理 器 体系 结构 和 应 用 
程序 代码 的 编译 原理 。 通 常 为 达到 “最 佳 ” 代 码 ， 会 应 用 启发 式 算 法 。 

但 是 ， 并 不 能 总 是 通过 软 流水 优化 指令 序列 。 由 于 循环 中 数据 依赖 关系 的 存在 (例如 一 
个 循环 依赖 于 另 一 个 循环 的 结果 )， 编 译 器 和 处 理 器 硬件 都 不 能 避免 流水 线 的 阻塞 。 对 于 前 
面 例 子 中 的 小 规模 循环 ， 为 了 计算 A(i) 需要 A(itoffset), m offset 是 一 个 编译 时 已 知 的 常数 
或 者 变量 。 


真相 关 伪 相 关 通用 版 本 
start=max(1,1-offset) 
do i=2,N do i=i,N-1 end=min (N, N-offset) 
A(i)=s*A(i-1) A (i)=sxA(i+1) do i=start,end 
enddo enddo A(i)=s+A(i+offset) 
enddo 





WEEEK WO) BK HRI, FET BORER ARAN KG. HEX, R 
们 认为 有 一 个 伪 相 关 ， 因 为 流水 线 计算 AG) 时 需要 的 AGH) 总 是 可 以 获得 的 ， 则 没有 阻塞 。 
然而 ， 真 相关 时 ， 流 水 线 在 计算 A(i) 时 必须 阻塞 直到 A(i-1) 得 到 结果 。 这 可 能 导致 如 图 
1-7 中 左 图 所 示 的 一 个 很 大 的 性 能 下 降 。 该 图 显示 了 不 同 循环 长 度 下 浮 点 数 运算 的 性 能 。 由 
于 片上 高 速 缓 存 (cache) 延 时 小 和 带宽 高 的 特点 ， 这 种 下 降 只 在 高 速 缓存 中 很 明显 。 如 果 循 
环 长 度 足 够 大 使 所 有 数据 不 得 不 从 内 存 中 取得 ， 那 么 流水 线 阻塞 的 影响 就 微不足道 了 ， 因 为 
这 些 额 外 的 时 钟 周期 很 容易 被 内 核 等 待 片 外 数据 的 时 钟 隐藏 。 


— offset = 0 
~~ offset = +1 
"=" offset = -1 


—A(i)= s*A(i) 
-~-A(i)= s*A(it+1) 
---A(i)= s*A(i-1) 





10° 10 10° 107 10° 10° 
N N 


图 1-7 ”循环 偏 移 量 为 常量 和 变量 时 ， 分 别 对 循环 性 能 的 影响 (AMD Opteron 2.0 GHz) 
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尽管 可 能 有 人 认为 ,在 编译 时 是 否 知道 偏 移 量 无 关 紧 要 ， 但 图 1-7 中 的 右 图 显示 出 了 一 
个 可 变 的 偏 移 量 导 致 的 性 能 戏剧 性 下 降 。 在 这 种 情况 下 ， 编 译 器 不 能 使 用 最 佳 的 软 流 水 或 循 
环 优 化 。 这 实际 上 是 一 种 常见 现象 ， 而 不 仅 是 跟 软 流水 相关 。 为 编译 器 隐藏 信息 对 性 能 有 着 
重大 影响 (这 个 特殊 例子 是 由 于 编译 器 抑制 了 SIMD 向 量化 ， 见 1.2.4 节 和 习题 1.2 及 2.2 )。 
软 流水 的 一 些 问 题 与 高 速 缓存 的 使 用 有 关 ， 详 见 1.3.3 市 。 


1.2.4 ire 


如 果 处 理 器 被 设计 成 每 个 时 钟 周 期 执行 多 条 指令 ， 或 者 更 一 般 地 说 ， 每 个 时 钟 周 期 可 以 
得 到 多 个 结果 。 在 超标 量 设计 的 多 个 细节 中 可 以 反映 这 一 目标 : 
口 可 以 同时 读 取 和 分 析 多 条 指令 (目前 为 3 ~ 6 条 指令 )。 
a 能 在 多 个 (2 ~ 6 个 ) 整 型 运算 单元 执行 地 址 和 其 他 整数 运算 ， 这 与 上 一 点 有 很 大 的 
关联 ， 因 为 需要 同时 执行 代码 才能 向 这 些 单元 提供 数据 。 
a 并 行 运 行 多 个 浮 点 数 流水 线 。 通 常 有 一 个 或 两 个 加 - 乘 运算 相 结合 的 管道 执行 像 a = 
bto*d 这 样 的 操作 。 
口 高 速 缓存 足够 快 能 够 达到 每 个 时 钟 周期 多 个 存 取 操作 ， 可 用 的 加 载 执行 单元 的 数量 
(2 一 4 个 ) 反映 了 这 一 操 。 
超标 量 是 并 行 执 行 的 一 种 特殊 形式 ,一 种 变形 的 指令 级 并 行 (Instruction Leud 
Parallelism，ILP)。 为 了 充分 利用 超 流 水 线 ， 乱 序 执行 和 编译 优化 必须 协同 工作 。 然 而 即使 
是 最 先进 的 体系 结构 ， 通 过 编译 生成 的 代码 要 达到 每 周期 2 ~ 3 条 指令 的 吞吐 量 也 是 极其 困 
难 的 。 这 就 是 为 什么 一 些 性 能 要 求 高 的 应 用 程序 有 时 使 用 汇编 语言 编写 。 


1.2.5 SIMD 


随 着 20 世纪 70 年 代 第 一 台 向 量 超级 计算 机 问世 ，SIMD 的 概念 变 得 家 喻 户 晓 COL 1.6 
节 )， 并 且 成 为 20 世纪 80 年 代 和 90 年 代 早 期 大 型 并 行 互 连 机 的 基本 设计 原则 。 

最 近 许 多 基于 高 速 缓存 的 处 理 器 拥有 整 型 和 浮 点 型 SIMD 操作 的 扩展 指令 集 [C107], 
这 使 人 联想 到 它们 的 历史 根源 ， 那 时 只 能 执行 小 规模 运算 。 它 们 利用 一 个 能 够 装 下 两 个 双 
精度 或 4 个 单 精 度 浮 点 数 的 宽 寄 存 器 来 实现 算法 的 并 行 操作 。 图 1-8 例子 中 有 两 个 128 位 寄 
存 器 ， 每 个 都 能 存放 4 个 单 精 度 浮 点 型 数据 ， 单 条 指令 即 可 一 次 启动 4 次 加 法 运算 。 注 意 ， 





图 1-8 SIMD 例子 : 有 两 个 SIMD 寄存 器 (x, y)， 每 个 寄存 器 的 长 度 为 128 位 ， 用 于 单 精度 浮 
点 数 的 加 法 。 一 条 指令 同时 启动 4 个 浮 点 数 操作 
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SIMD 不 会 关注 这 些 操作 的 相关 性 ， 如 果 有 足够 的 算术 单元 可 用 ， 这 4 个 加 法 运算 就 能 够 真 
正 并 行 执行 ， 和 否则 被 送 到 单个 流水 线 中 。 当 被 送 到 单个 流水 线 时 ，SIMD 会 减少 超标 量 (和 
复杂 性 ) 但 是 不 会 减少 峰值 运算 性 能 ， 而 当 有 足够 的 算术 单元 可 用 时 ，SIMD 操作 能 较 大 提 
升 峰值 性 能 。 在 两 种 情况 下 ， 存 储 于 系统 (或 至 少 是 高 速 缓存 ) 必须 能 够 有 足够 大 的 带宽 使 
得 所 有 单元 能 够 一 直 处 于 工作 状态 。SIMD 指令 集 的 编程 和 优化 详 见 2.3.3 F. 


1.3 存储 层次 


数据 以 不 同 的 方式 存储 在 计算 机 系统 中 。 前 面 草 节 提 到 ，CPU 有 一 组 可 以 不 延 时 访问 
的 寄存 筑 。 另 外 ， 有 一 个 或 几 个 容量 小 但 存 取 速度 快 的 cache， 用 以 保存 最 近 被 访问 过 的 数 
据 项 副本 。 主 存 要 慢 得 多 ， 但 是 容量 比 cache 大 很 多 。 最 后 ， 数 据 能 够 存放 在 磁盘 上 ， 在 需 
要 的 时 候 再 复制 到 主 存 中 。 这 是 一 个 复杂 的 层次 结构 ， 为 了 搞 清 楚 它 的 性 能 瓶颈 ， 理 解数 据 
在 不 同 层次 之 间 的 传递 原则 是 至 关 重 要 的 。 下 面 我 们 将 集中 描述 从 CPU 到 主 存 的 各 个 层次 
(WE 1-3). 


1.3.1 高 速 缓存 


高 速 缓存 是 低 容 量 、 高 速度 的 存储 器 ， 通 常 集成 在 CPU 内 部 。 只 要 认识 到 主 存 的 数据 
传输 速度 远 低 于 CPU 的 运算 速度 ， 就 能 很 容易 理解 为 什么 高 速 缓存 是 必 不 可 少 的 。 当 每 
核 的 峰值 性 能 达到 GFlop/s 时 ， 存 储 器 带宽 即 数 据 从 存储 器 到 CPU 的 传输 速率 ， 还 停留 在 
GB/s， 完 全 不 能 使 运算 单元 保持 繁忙 (更 加 详细 的 分 析 见 第 3 章 )。 更 加 糟糕 的 是 ， 为 了 将 
一 个 数据 项 (一 个 或 两 个 DP F) 从 主 存 传送 到 CPU， 需 要 一 个 等 待 时 间 ， 称 为 延迟 。 延 迟 
通常 定义 为 传输 一 个 0 字 节 消息 需要 的 时 间 。 主 存 的 延迟 通常 是 几 百 个 CPU 周期 ， 由 存储 
做 必 片 、 忌 片 组 和 处 理 需 等 不 同 成 分 组 成 。 尽 管 摩尔 定律 保证 了 芯片 复杂 性 和 性 能 的 稳定 增 
长 ， 但 是 存储 器 性 能 的 增长 速度 仍然 在 一 个 很 低 的 水 平 上 。CPU 和 主 存 之 间 的 延迟 和 带宽 
有 越 来 越 大 的 差距 [R34，R37]。 

在 很 多 情况 下 ， 高 速 缓存 能 够 缓解 主 存 带 来 的 影响 。 通 常 至 少 有 两 级 cache (IEI 1-3 ) 
分 别称 为 Ll 和 L2。L1 通常 分 成 两 个 部 分 : 指令 cache (Lcache，LI1I) 和 数据 cache (LID). 
而 在 L2 上， 存储 数据 和 存储 指令 通常 都 是 相同 的 。 一 般 来 说 ，cache 离 CPU 寄存 器 越 近 ， 
它 的 带宽 越 大 ， 延 迟 越 低 ， 管 理 开 销 就 越 小 。 当 CPU 发 出 读 请 求 (加 载 ) 时 ， 传 输 一 个 数 
据 项 到 寄存 器 中 ，L1 cache 逻辑 检查 该 数据 项 是 否 已 经 存放 在 其 中 。 如 果 在 ， 则 称 为 cache 
命中 ， 且 请 求 能 够 被 立即 响应 。 然 而 在 cache 不 命中 的 情况 下 ， 数 据 需 要 从 外 层 cache 中 取 
出 ， 最 糟 的 情况 下 需要 从 主 存 中 获得 。 如 果 所 有 的 cache 都 被 占用 ， 则 需要 由 硬件 实现 的 算 
法 来 进行 数据 蔡 换 ， 用 新 的 数据 替换 cache 中 原来 的 数据 。 而 在 cache 不 命中 对 于 写 操 作 更 
加 复杂 ， 后 文 将 介绍 。 因 为 代码 中 往往 有 很 多 循环 ， 所 以 相 比 于 数据 cache， 指 令 cache 的 
重要 性 要 稍 低 ， 指 令 cache 的 不 命中 率 与 数据 高 速 缓存 相 比 也 要 低 很 多 。 

cache 只 有 在 应 用 程序 的 数据 使 用 具有 局 部 性 引用 时 才 会 对 性 能 产生 积极 影响 。 更 加 具 
体 地 说 ， 数 据 项 被 加 载 到 cache 中 后 ， 在 没 来 得 及 被 换 出 前 被 再 次 使 用 ， 这 也 称 为 时 间 局 部 
性 。 现 在 我 们 运用 一 个 简单 的 模型 来 估计 高 速 缓存 带 来 的 性 能 增益 。 使 用 一 个 参数 * 表 示 速 
度 上 cache 比 主 存 快 的 倍数 (这 涉及 带宽 和 延 时 ; 存在 更 精确 的 模型 ， 但 是 计算 效果 是 一 样 
的 )。 令 有 等 于 cache 的 重用 率 ， 即 最 近 被 访问 过 的 数据 被 再 次 访问 的 次 数 。 主 存 访问 时 间 
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(同样 这 里 包括 延 时 和 带宽 ) 记 为 Tmo FE cache 中 ,数据 访问 时 间 减 少 至 7.= Tw/r。 对 于 一 些 
确定 的 5， 平 均 访问 时 间 达 到 To= BT.+(1-p)Ts， 于 是 我 们 计算 性 能 增益 为 : 


am tl, T 


(1-4) 





0.7 0.75 0.8 0.85 0.9 0.95 1 


图 1-9 不 同 的 cache EHX (A) 带 来 的 性 能 增益 ，r 表 示 cache 比 主 存 快 的 倍数 


不 幸 的 是 ， 支 持 时 间 局 部 性 是 不 够 的 。 许 多 应 用 程序 为 流 模式 : 大 量 数据 被 加 载 到 
CPU、 修 改 然后 写 回 ， 而 没有 被 及 时 复 用 。 对 于 一 个 仅 支持 时 间 局 部 性 的 cache， 复 用 率 2 
等 于 0。 由 于 cache 中 的 旧 数 据 项 被 新 的 取代 ,产生 很 大 延迟 ， 因 此 每 一 次 新 的 数据 加 载 都 
有 很 大 开销 。 为 了 减少 延 时 开销 ， 在 cache 中 加 入 了 一 个 叫 cache fF (cache line) 的 特殊 组 
织 结 构 。 在 cache 和 主 存 之 间 的 数据 传输 ， 都 在 cache 行 级 别 上 进行 (这 个 规则 可 能 有 一 些 
例外 ， 可 参考 下 面 介 绍 的 非 时 效 性 存储 的 内 容 )。cache 行 的 优势 在 于 ，cache 不 命中 的 延 时 
开销 只 发 生 在 数据 项 第 一 次 不 命中 的 时 候 。cache 行 作 为 整体 从 主 存 中 取出 ， 相 邻 数据 项 能 
够 以 一 个 更 低 的 延 时 从 cache 中 取出 ， 提 升 了 cache 的 命中 率 ”， 不 要 与 重用 率 SILA. A 
此 ， 如 果 应 用 程序 具有 一 些 空间 局 部 性 ， 即 连续 访问 相 邻 数据 项 的 概率 越 高 ， 那 么 延 时 能 够 
显著 减少 。cache 行 的 缺点 是 不 支持 不 稳定 的 数据 访问 模式 。 那 样 会 导致 每 次 数据 加 载 都 会 
产生 不 命中 和 随 之 而 来 的 延 时 ， 而 且 由 于 传输 了 整个 cache 行 会 导致 主 存 总 线 上 传输 很 多 从 
未 被 使 用 过 的 数据 ， 则 应 用 程序 的 有 效 带宽 将 非常 低 。 然 而 从 总 体 上 来 看 cache 行 的 优势 还 
是 很 受 欢 迎 的 ， 大 部 分 处 理 器 制造 商都 使 用 这 一 机 制 。 

假设 一 个 基于 DP 浮 点 型 的 流 式 应 用 程序 在 CPU 上 执行 ，cache 行 的 长 度 为 L。= 16 字 ， 
空间 局 部 性 的 命中 率 y 为 一 个 看 似 很 大 的 值 上 : y= (16-1)/16 = 0.94。 它 的 性 能 仍然 依赖 于 
主 存 的 囊 宽 和 延迟 ， 即 代码 受制 于 内 存 。 为 了 使 应 用 程序 能 够 真正 受制 于 cache, MAES 
主 存 带宽 和 延 时 的 影响 ，” 必须 足够 大 ， 从 而 使 得 处 理 cache 中 数据 的 时 间 远 远大 于 重新 重 
加 载 数据 的 时 间 ， 这 种 情况 的 发 生 取 决 于 执行 操作 的 细节 。 

现在 ， 我 们 可 以 定性 分 析 基 于 cache 体系 结构 上 三 维 向 量 算法 性 能 ， 如 图 1-4 中 所 示 。 
在 很 小 的 循环 长 度 下 ， 处 理 器 流水 线 太 长 以 至 于 效率 不 高 。 随 着 N 的 增加 ， 这 种 制约 变 得 
微不足道 ， 而 当 4 个 数组 都 能 在 最 内 层 cache 命中 时 ， 人 性 能 达到 一 个 饱和 值 ， 这 个 值 由 一 级 


(L1) cache 带宽 和 处 理 器 发 出 存 取 指令 的 能 力 决 定 。 继 续 增 加 NN 的 大 小 将 导致 性 能 急剧 下 
降 ， 因 为 最 内 层 cache 的 容量 不 足以 容纳 所 有 数据 。 二 级 (L2) cache 总 有 更 长 延迟 但 市 宽 
只 是 接近 于 一 级 cache， 因 此 延迟 比 预期 更 大 。 然 而 ， 来自 L2 的 数据 流 还 带 来 一 个 缺点 : 此 
时 的 工 1 不 得 不 向 寄存 器 提供 数据 ， 同 时 又 持续 地 重 载 并 数据 写 回 到 L2， 这 限制 了 Llcache 
的 带宽 利用 率 。 由 于 cache 向 其 他 存储 层次 传送 数据 的 能 力 高 度 依赖 体系 结构 ， 除 了 最 内 层 
cache 和 主 存 外 ， 整 体 性 能 很 难 被 估计 。 随 着 N 的 增加 ， 不 同 层次 cache 的 性 能 分 别 下 降 ， 
直到 最 后 ， 甚 至 最 外 层 的 cache 容量 都 显得 过 小 ， 以 致 所 有 的 数据 不 得 不 与 主 存 交 换 。 而 带 
宽 瓶 颈 的 位 置 也 与 cache 的 容量 直接 相关 。 一 些 基 本 参数 ， 例 如 cache、 主 存 带 宽 和 应 用 程 
序数 据 需 求 等 ， 对 循环 的 性 能 有 着 不 同 影 响 ，3.1 节 将 具体 讲述 怎样 预测 这 些 参 数 带 来 的 性 
能 影响 。 

写 数据 比 读数 据 更 加 复杂 。 在 当前 的 cache 中 ， 如 果 即 将 被 写 回 的 数据 已 经 存储 在 
cache 中 ， 则 发 生 写 命中 。 写 cache 有 多 种 策略 ， 但 是 通常 最 外 层 的 cache 采用 写 回 策略 : 
先 修 改 cache 行 ， 当 数据 要 被 从 cache 中 换 出 时 ， 整 个 数据 再 被 写 回 主 存 。 然 而 ， 当 写 不 
命中 时 ， 在 数据 被 修改 之 前 ， 由 于 cache 和 主 存 的 一 臻 性， 需要 先 将 数据 从 主 存 写 入 cache 
中 ， 这 就 是 所 谓 的 写 分 配 ， 这 将 导致 从 CPU 到 主 存 的 写 数据 流 会 使 用 总 线 两 次 : 一 次 是 从 
主 存 导 和 人 数据 到 cache 行 ， 男 一 次 是 修改 后 写 回 (由 于 写 分 配 ，traid 基准 测试 代码 的 数据 转 
移 需 求 增 加 了 25%)。 因 此 ， 流 式 应 用 程序 不 总 是 受益 于 写 回 策略 ， 其 可 能 导致 更 多 写 分 配 
的 发 生 。 所 以 要 尽 可 能 避免 写 分配 的 发 生 ， 某 些 体系 结构 提供 了 这 种 功能 ， 并 且 一 般 有 两 种 
不 同 的 策略 : 

D 非 时 效 性 存储 。 有 一 些 特殊 的 存储 指令 不 必 通 过 所 有 的 cache 层次 而 将 数据 直接 写 进 

内 存 中 。 写 数据 流 不 会 “污染 ”cache， 但 是 这 会 导致 缺乏 时 间 局 部 性 。 为 了 避免 大 
量 的 延 时 ， 通 并 需要 有 一 个 小 的 写 缓冲 区 ， 临 时 存储 着 由 许多 非 时 效 性 存储 的 数据 
[C 104]. 

T cache 行 标 零 。 一 些 特殊 的 指令 能 把 cache 行 标 零 ， 代 表 发 生 过 改变 。 这 些 数据 在 替 
换 出 去 的 时 候 要 写 到 内 存 。 与 非 时 效 性 存储 比较 ，cache 行 标 零 方法 能 够 为 写 数据 流 
用 完 cache 空间 。 男 一 方面 ， 在 高 速 缓存 受 限 的 条 件 下 ， 存 储 操 作 不 必 减 速 。 但 是 必 
须 注意 ， 即 使 只 有 一 部 分 数据 改变 ， 整 个 cache 行 在 替换 的 时 候 都 要 写 到 内 存 。 

这 两 种 方法 都 能 被 编译 器 使 用 ， 程 序 员 也 可 以 通过 指令 来 指示 编译 器 如 何 做 ， 在 简单 情 
况 下 ， 编 译 需 在 代码 优化 阶段 会 自动 使 用 这 些 指 令 。 但 是 要 留意 ， 使 用 非 时 效 性 存储 会 让 受 
限于 cache 的 代码 变 慢 ， 但 是 会 让 受 限 于 存储 的 代码 则 变 得 更 有 效 。 

需要 注意 的 是 ， 之 所 以 需要 写 分配 ， 是 因为 cache 和 内 存 交 换 的 基本 单元 是 cache 行 。 
还 有 一 种 普遍 的 误解 认为 写 分 配 只 需要 保持 多 处 理 器 核 的 cache 一 致 就 可 以 了 (还 需要 与 内 
存 一 致 )。 


1.3.2 高速 缓存 映射 


之 前 我 们 默认 假设 了 cache 行 与 存储 单元 之 间 的 映射 没有 任何 约束 ， 这 种 设计 也 叫 全 相 
Hk (fully associative) 。 不 幸 的 是 ， 这 种 方式 设计 的 cache 很 难 做 得 很 快 或 者 很 大 ， 因 为 全 相 
联 的 cache 有 很 大 的 夭 记 开销 : 每 一 个 cache ÍF, Æ CPU 的 地 址 空间 中 必须 存储 其 地 址 ， 而 
且 每 一 次 存 取 操 作 都 要 检查 所 有 的 地 址 。 此 外 ， 如 果 cache WT, cache 的 替换 策略 由 硬件 


14 1# 





实现 。 最 近 最 小 使 用 策略 (Least Recently Used, LRU) 会 保证 “最 久 ” 的 项 被 替换 ， 而 像 最 
近 不 使 用 算法 (Not Recently Used, NRU) 或 者 随机 替换 策略 则 不 能 够 保证 。 

直接 映射 策略 则 是 最 直接 、 最 简单 的 方法 。 直 接 将 大 小 为 cache 容量 的 内 存 块 映 射 到 
cache (如 图 1-10 )， 相 距 cache 大 小 整数 倍 的 存储 单元 会 被 映射 到 cache 中 相同 的 行 ， 只 要 
去 除 最 高 有 效 位 ， 就 能 很 快 地 得 到 某 内 存 地 址 的 cache 行 。 而 且 cache 的 替换 不 需要 任何 算 
法 ， 不 需要 硬件 支持 也 没有 时 间 周 期 的 开销 。 


一 一 
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图 1-10 直接 映射 cache。 相 距 cache 大 小 整数 倍 的 存储 单元 会 被 映射 到 相同 的 cache 行 (图 中 
阴影 方 格 ) 


直接 映射 cache 的 一 个 缺点 是 很 可 能 产生 颠 敏 ， 即 某 些 cache 行 被 快速 地 导入 和 和 蔡 换 。 
当 应 用 程序 中 使 用 的 很 多 数据 映射 在 cache 的 同一 行 时 就 会 发 生 种 现象 。 用 一 个 简单 的 例子 
说 明 ， 例 如 还 是 双 精 度 的 跨 步 三 维 回 量 算法 ， 只 要 改变 一 下 内 循环 ， 如 下 所 示 : 


1 do i=],N,CACHE SIZE IN BYTES/8 
2 A(i) = B(i) + C(i) * D(i) 
3 enddo 


用 cache 的 容量 ( 双 精 度 字 为 单位 ) 作为 跨 步 ， 连 续 的 循环 迭代 会 取 相 同 cache 行 数据 ， 
即使 每 一 次 导 和 人 都 填 满 cache 行 ， 也 会 导致 一 次 cache 失效 。 原 则 上 cache 中 有 大 量 的 空间 
未 被 利用 ， 这 种 情况 叫做 冲突 缺失 。 如 果 跨 步 为 cache 行 的 长 度 ， 即 使 NN 很 小 ，cache 的 利 
用 率 也 为 100%。 而 跨 步 为 cache FERN, TE N LZ, cache 重 利用 率 几乎 为 0。 

为 了 降低 替换 开销 同时 减少 冲突 失效 和 cache MUSE, aE. i cache 分 为 m 
组 相同 大 小 的 直接 相连 cache， 即 叫做 m 路 组 相 联 。m 的 数量 是 一 个 存储 单元 可 以 被 映射 到 
的 不 同 cache 行 的 个 数 (图 1-11 是 一 个 2 路 组 相 联 的 例子 )。 在 每 一 次 存 取 中 ,硬件 很 少 干 
涉 数 据 应 该 存储 到 哪 一 路 cache 或 者 在 未 命中 的 情况 下 哪 一 路 的 cache 行 应 该 替换 。 

为 了 在 低 延 迟 和 防止 颠 敏 中 寻求 平衡 ， 系 统 程序 员 必 须 考 虑 cache 层次 。 最 内 层 的 
cache(L1) 相 比 于 外 层 cache 较 少 使 用 组 相 联 。 典 型 组 相 联 的 组 数 在 2 一 48 之 间 。 但 cache 
的 有 效 容 量 还 比较 小 ， 例 如 在 应 用 程序 中 ， 根 据 数据 流 的 数目 和 它们 的 跨度 、 相 互 位 移 会 产 
生 时 间 、 空 间 局 部 性 ， 但 能 有 效 利 用 这 些 局 部 性 的 cache 部 分 非常 小 。 
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图 1-11 m 路 组 相 联 cache， 相 距 为 1/m 倍 cache 容量 的 内 存单 元 将 被 映射 到 任意 一 路 cache 行 
中 (这 里 m=2 ) 


1.3.3 ME 


即使 引进 了 cache 行 以 利用 空间 局 部 性 ， 可 以 使 cache 更 有 效 ， 但 是 在 第 一 次 不 命中 时 
还 是 会 有 大 量 延 迟 。 图 1-12 是 求 向 量 范 数 内 核 的 例子 。 





图 1-12 求 向 量 范 数 循 环 时 ，cache 未 命中 时 的 时 间 表 以 及 延迟 。 每 一 次 未 命中 都 会 有 延迟 


1 do i=1,N 
2 S = S + A(i)*A(i) 
3 enddo 
代码 中 只 有 一 条 数据 加 载 流 。 假 设 cache 行 的 长 度 为 4， 则 在 三 次 加 载 中 能 在 cache 中 
命中 ， 然 后 就 会 发 生 一 次 cache 不 命中 ， 这 种 长 延迟 会 导致 内 存 总 线 长 时 间 空 闲 。 


增 大 cache 行 的 长 度 会 减少 上 述 类 似 的 延迟 ， 但 是 会 造成 访问 模式 不 稳定 而 减 慢 应 用 程 
序 的 执行 速度 。 为 了 平衡 ， 主 流 的 cache 行 长 度 为 64 一 128 字 节 (8 一 16 个 双 精 度 浮 点 数 )。 
到 目前 为 止 还 会 存在 较 大 的 类 似 延 返 ， 所 以 内 存 带 宽 、 内 存 总 线 利 用 率 较 低 。 假 设 一 个 商用 
系统 存储 延迟 为 50ns， 带 宽 为 10GB/s， 传输 一 个 128 字 节 的 cache 行 需要 13ns， 则 80% 的 
总 线 带 宽 没 有 被 使 用 ， 此 时 延迟 已 经 是 一 个 比 带宽 更 重要 的 问题 。 

有 很 多 方法 可 以 减少 延迟 ， 预 取 是 其 中 之 一 。 预 取 是 指 在 应 用 程序 使 用 数据 之 前 就 已 经 
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把 它们 导入 cache。 通 过 软 流水 ， 编 译 器 会 在 程序 中 打 乱 一 些 指令 ， 从 而 让 人 硬件 有 时 间 异 步 
地 把 数据 提前 导入 cache (如 图 1-13 )。 这 里 假设 现代 系统 架构 一 定 程度 上 能 支持 异步 传输 。 
还 有 一 种 方案 可 以 达到 预 取 一 样 的 效果 ， 一些 处 理 器 有 一 个 人 硬件 预 取 副 ， 能 够 根据 数据 访 
问 模 式 提 前 读 取 应 用 程序 数据 ， 保 持 持续 的 数据 流 ， 并 提供 与 预 取 指令 相同 的 服务 。 无 论处 
于 哪个 阶段 ， 必 须 强 调 的 是 预 取 使 用 的 资源 必须 由 设计 进行 限制 。 存 储 子 系统 必须 能 文 持 一 
定数 量 的 预 取 指 令 〈 例 如 正在 响应 的 预 取 请 求 )， 容 忍 存储 流水 线 的 阻塞 和 不 可 避免 的 延迟 。 
我 们 可 以 估计 为 了 隐藏 所 有 延迟 而 预 取 需要 的 指令 数量 ， 假 设 到 是 延迟 ,， 是 带宽 ， 则 传输 
Le (以 字 节 为 单位 ) 需要 的 时 间 : 
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图 1-13 通过 预 取 ， 计算 和 数据 传输 过 程 能 够 更 好 地 重 得 此 例 中 为 了 完全 隐藏 延迟 需要 预 取 
两 条 指令 


每 次 cache 行 传输 的 时 候 都 需要 一 次 预 取 操作 ， 处 理 器 需要 预 取 的 指令 数量 是 在 时 间 T 
内 能 传输 的 cache 行 的 数量 ， 设 为 己 ( 见 图 1-13 )， 则 处 理 器 必须 





例如 cache 行 长 度 为 128 字 节 (16 SOE ARM), B= 10GB/s， 思 =50ns， 则 可 以 得 
BP ~ $。 如 果 没 达到 这 种 预 取 要 求 ， 延 迟 不 会 完全 隐藏 ， 存 储 带 宽 也 不 能 完全 被 利用 。 另 
一 方面 ， 如 果 应 用 程序 使 用 很 多 高 速 缓存 块 数据 (这些 数据 在 传输 时 不 能 被 隐藏 ) 的 浮 点 型 
操作 ， 执 行 时 间 比 数据 传输 的 时 间 明 显要 长 ， 将 不 会 受到 带宽 的 限制 ， 对 存储 子 系统 的 压力 
也 不 大 (3.1 节 中 会 介绍 合适 的 高 性 能 模型 ) 。 这 种 情况 下 ， 不 需要 太 多 指令 预 取 。 

严重 依赖 存储 带宽 的 应 用 程序 可 能 会 给 预 取 机 制 带 来 较 大 压力 。 可 以 用 一 个 共享 存储 总 
线 的 协 处 理 器 来 提供 预 取 功 能 ， 减 轻 带 宽 的 压力 (详细 请 参考 1.4 节 的 多 核 设计 )。 通 常 ， 如 
果 程 序 具 有 流 模式 访 存 ， 那 么 一 个 好 的 编程 模型 应 该 提供 一 种 更 长 的 持续 数据 流 方法 。 

最 后 ， 有 些 要 注意 的 地 方 。 图 1-12 和 图 1-13 强调 了 指令 预 取 对 隐藏 延迟 的 作用 ， 但 是 
带宽 的 性 能 限制 也 不 能 忽视 。 即 使 单个 cache 行 的 传输 时 间 主 要 是 传输 延迟 ， 预 取 也 不 能 提 

高 主 存 带 宽 。 
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1.4 BRB ss 


近年 来 并 且 至 少 在 接 下 来 的 十 年 ， 虽 然 摩 尔 定 律 依然 成 立 ， 但 标准 的 微 处 理 需 开始 遇 到 
散热 问题 数 百 万 个 晶体 管 芯 片 的 开关 和 漏电 功 耗 如 此 之 大 ， 使 散热 成 为 一 个 工程 和 商业 主 
要 关注 的 问题 。 另 一 方面 ， 由 于 硬件 架构 方面 的 改进 和 cache 尺寸 的 增加 ， 促 进 了 时 钟 频率 
不 断 提高 ， 但 已 不 足以 获得 符合 摩尔 定律 1 比 1 的 性 能 提升 。 处 理 器 厂商 们 正在 寻找 一 种 突 
破 这 种 能 耗 性 能 瓶颈 的 新 方法 一 一 多 核 设 计 。 

对 于 半导体 处 理 技术 ，CPU 的 功 耗 和 时 钟 频 率 大 的 三 次 方 成 比例 (实际 上 是 大 和 电源 
电压 Ve 的 二 次 方 的 乘积 ， 但 是 大 与 KV. 成 比例 )， 所 以 降低 频率 和 电压 就 可 以 明显 地 降低 功 
耗 ， 这 是 多 核 技 术 背 后 的 动机 。 假 设 有 一 个 单 核 时 钟 频 率 是 及， 性 能 是 p， 功 耗 是 W, mhap 
频率 的 微小 变化 (gr= ASMA.) 会 引起 性 能 方面 的 变化 (e= A p/p)， 在 所 有 其 他 条 件 一 样 的 条 
件 下 ,ls/| 是 |sp| 的 上 限 ， 这 也 要 考虑 具体 的 应 用 。 功 率 消耗 为 : 

W+AW=(1+e)W (1-7) 

从 式 〈1-7 ) 中 可 看 出 ， 在 保证 功 耗 不 变 的 前 提 下 ， 降 低 时 钟 频率 创造 了 将 多 个 CPU 核 
放 在 同一 个 晶片 (更 一 般 地 为 同一 个 组 件 ) 上 的 可 能 性 。 而 对 于 m 个“ 慢 ” 核 ， 这 个 条 件 表 
ANA: 

(l+e)?m=1> G=m''?-] (1-8 ) 

这 些 核 和 速度 更 快 的 核 有 相同 的 晶体 管 数 量 ， 但 是 根据 摩尔 定律 ， 增 加 晶 管 的 数量 并 不 
增加 成 本 。 图 1-14 显示 了 频率 与 处 理 器 核 的 数量 关系 。 所 有 多 核 芯 片 的 总 性 能 表示 为 : 

Pm= (1+€,) pm (1-9 ) 


2 4 8 16 
m 


图 1-14 在 给 定 的 工艺 技术 和 功率 上 ， 所 需 的 相对 频率 与 多 核 芯 片上 核 的 数量 的 关系 
而 多 核 芯片 的 总 性 能 必须 大 于 单 核 的 性 能 : 
sy> =| (1-10 ) 
当然 ， 由 于 现在 的 制造 技术 ， 增 加 CPU 唱片 是 不 难 的 。 因 此 ， 实 现 多 核 最 简单 的 方法 
就 是 将 各 个 CPU 唱片 放 在 一 个 共同 的 组 件 内 。 比 如 更 小 的 结构 长 度 等 制造 工艺 方面 的 改进 ， 


将 能 够 在 一 个 晶片 上 安置 更 多 的 核 。 但 是 相 比 前 一 代 产 品 ， 多 核 芯 片上 的 单 核 性 能 可 能 会 有 
所 下 降 ， 否 则 芯片 上 晶体 管 的 数量 和 时 钟 频率 都 会 下 降 。 有 些 公司 甚至 不 惜 以 可 能 会 带 来 新 
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的 编程 模型 为 代价 ， 而 采用 更 为 激进 的 方法 ， 即 设计 更 简单 的 核 。 

1.9 节 中 过 于 乐观 的 假设 是 m 个 核 会 表现 m 个 单 核 性 能 总 和 的 假设 仅 在 极 少数 情况 下 才 
成 立 。 然 而 到 目前 为 止 ， 多 核 结构 已 经 被 所 有 主要 的 处 理 器 制造 商 采 用 。 我 们 将 同时 使 用 
核 ，CPU 和 处 理 器 的 概念 ， 避 免 产 生 误解 。 插 槽 (socket) 指 的 是 封装 了 多 个 核 (有 了 时 可 能 
是 多 个 芯片 ) 的 物理 单元 ， 通常 配备 引 脚 来 使 其 成 为 可 更 换 的 部 件 。 传 统 的 台式 电脑 ， 只 有 
一 个 插 模 ， 但 是 标准 的 服务 器 有 两 个 或 者 四 个 ， 它 们 共享 相同 内 存 。4.2 节 将 详细 介绍 共享 

[24] 存储 的 并 行 计算 机 体系 结构 。 
片上 和 插 模 上 的 核 组 织 结构 有 显著 的 差别 : 
a 一 个 晶片 上 的 核 有 各 自 的 cache 或 者 共享 特定 层次 的 cache (图 1-16 ~ 1-18). 在 
后 面 提 到 时 ， 我 们 称 共 享 了 特定 cache 层次 的 一 组 核 为 cache 组 (cache group). il 
如 ， 图 1-17 中 的 六 核 CPU 分 成 了 6 个 L1 组 ，3 个 双核 站 2 组 和 一 个 包含 整个 插 槽 的 
L3 组 。 





图 1-15 具有 独立 LI1、L2、L3 三 层 图 1-16 ”两 个 双核 处 理 器 组 成 的 四 核 处 理 需 
的 cache 的 双核 处 理 器 必 片 (Ptel its Hr (Intel “ Harpertown”)。 每 个 双核 处 理 
“Montecito” ) 。 每 个 核 在 各 cache 器 具有 共享 的 2 cache 和 独立 的 L1 cache, 
层 上 都 有 上 自己 的 cache 行 共有 两 组 双核 L2 高 速 缓存 





图 1-18 ”四 核 处 理 器 芯片 。 具 有 单独 的 LI1 A L2 
图 1-17 ”六 核 处 理 器 芯片 。 每 组 核 具 有 单独 的 cache， 一 个 共享 的 L3 cache (AMD“Shanghai” 和 
L1、 共 享 的 L2 和 一 个 整个 核 共 享 的 L3 cache, Intel “ Nehalem”)。 有 四 个 单 核 L2 cache 组 ,一 个 
L2 cache 2H Ay AKAD FR ARH, L3 cache 组 为 整 ” 全 局 的 L3 cache 组 。 有 一 个 内 建 的 内 存 接口 ， 不 
个 处 理 器 拥有 需要 尽 片 就 可 以 直接 连接 内 存 和 其 他 插 槽 


共享 cache 使 得 核 与 核 间 的 通信 不 通过 主 存 ， 可 以 非常 明显 地 降低 延迟 并 以 指数 级 增加 
带宽 ; 而 其 负面 影响 可 能 是 市 宽 瓶 贷 。 共 至 或 独立 cache 对 性 能 的 影响 高 度 依赖 于 代码 和 系 
统 。 接 下 来 的 章节 会 更 多 地 讨论 这 个 问题 。 

口 最 新 的 多 核 设 计 集 成 了 一 个 内 存 控制 希 ， 内 存 控 制 右 可 以 直接 连接 内 存 模块 ， 而 不 
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使 用 独立 的 逻辑 电路 (芯片 )。 这 减少 了 内 存 延 迟 ， 也 使 像 超 传输 ( HyperTransport, 
HT) 和 快速 通道 (QuickPath，QPI) 等 互联 网 络 快速 增加 。 

口 在 cache 之 间 可 以 存在 快速 数据 通路 ， 使 得 高 效 cache 一 致 性 通信 成 为 可 能 。 

多 核 的 出 现 得 到 的 一 个 最 重要 结论 就 是 在 并 行 编程 时 需要 尽 可 能 大 地 利用 这 些 并 行 资 
源 ， 而 不 是 只 依靠 单 核 的 性 能 。 因 为 单 核 性 能 提高 的 空间 不 大 了 ， 仅 根据 摩尔 定律 改进 
CPU 来 提高 处 理 速 度 可 能 不 太 现实 。 第 5 章 将 描述 并 行 编程 的 限制 和 规则 。 在 4.2 节 中 将 呈 
现 更 多 关于 双核 和 多 核 的 设计 细节 ， 如 共享 内 存 体系 结构 等 。 第 6 章 和 第 9 章 给 出 了 当前 工 
程 和 科研 领域 使 用 的 主流 并 行 编程 范例 。 

多 核 结 构 带 来 的 男 一 个 挑战 是 每 个 单 核 可 用 的 主 存 带 宽 和 cache 容量 在 减少 。 虽 然 生产 
厂商 通过 使 用 更 大 容量 的 cache 来 弥补 ， 但 是 一 些 算法 性 能 总 是 受到 主 存 带宽 限制 ， 由 于 存 
在 总 线 竞 争 ， 使 共享 内 存 总 线 的 多 个 核 性 能 下 降 。 在 编程 中 ， 减 少 访 存 次 数 和 有 效 使 用 带宽 
成 为 了 使 用 摩尔 定律 进行 有 效 编 码 主要 考虑 的 问题 。 第 3 章 介绍 了 在 这 种 情况 下 一 些 有 效 的 
技术 。 

最 后 ， 在 多 核 必 片上， 共享 存储 与 非 共 享 存 储 有 着 不 同 的 复杂 结构 ( 见 图 1-17、 图 
1-18 )， 使 得 不 同 核 之 间 的 通信 也 非常 不 同 : 如 果 存 在 一 个 共享 的 cache， 它 们 可 以 通过 
cache 中 的 一 个 变量 来 进行 同步 ， 而 不 必 通 过 内 存 总 线 来 交换 信息 (参见 7.2 节 与 10.5 节 中 
的 实际 交换 )， 这 样 两 个 核 可 以 更 快 地 交换 信息 。 在 写 这 本 书 时 ， 几 乎 还 没有 多 核 的 编程 技 
术 能 够 利用 这 种 特征 来 提高 并 行 代 码 性 能 。 

因此 ， 根 据 运 行 应 用 程序 的 通信 特征 和 带宽 要 求 ， 多 线程 或 进程 在 多 核 中 (也 可 能 是 多 
MRD) 的 运行 环境 非常 重要 。 对 于 怎样 在 硬件 和 程序 线程、 进程 ) 中 建立 紧密 联系 ， 附 录 
A 中 会 详细 摘 述 。 本 书 经 常 提 到 性 能 与 并 行程 序 之 间 紧 密 关系 的 重要 性 ， 例 如 6.2 节 、 第 7 
章 、 第 8 章 和 10.5 节 。 


1.5 BAM RS 


Pot At BRAN BS Ab ERAR AB DA ey BE Yat 7K Ae HOR He tes PEE (如 果 可 以 使 用 流水 线 )。 前 面 提 到 ， 
一 些 因 素 会 影响 流水 线 的 高 效 利 用 : 相关 性 、 存 储 延 返 、 不 确定 的 循环 长 度 、 指 令 混合 以 及 
分 文 判断 错误 等 (参考 2.32 49) 将 导致 流水 线 频繁 等 待 ， 很 大 一 部 分 执行 资源 处 于 空闲 状态 
( 见 图 1-19 )。 不 立 的 是 ， 这 种 情况 是 规则 而 不 是 意外 。 为 了 提高 时 钟 频 率 而 尽 可 能 设计 长 
流水 线 会 增加 算法 的 复杂 性 ， 结 果 导 致 没有 获得 成 比例 的 性 能 提升 ， 处 理 器 也 会 有 更 多 的 
功 耗 。 


执行 单元 





图 1-19 没有 使 用 SMT 的 (多) 流水 线 微 处 理 器 上 的 数据 流 和 控制 流 简 图 。 执 行 单元 中 的 白 


色 框 图 代表 流水 线 气泡 (阻塞 周期 )。 图 形 由 Intel 提供 
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正 是 由 于 这 个 原因 ， 到 很 多 现代 的 处 理 器 设计 中 加 入 了 线程 ， 也 叫做 超 线程 技术 
( Hyper Threading) [V108，V109] 或 者 实时 多 线程 (Simultaneous Multithreading, SMT). 
这 种 设计 的 特点 是 CPU 核 的 结构 状态 多 次 复 现 在 不 同 的 线程 中 ， 结 构 状 态 包括 数据 、 状 态 
和 控制 寄存 器 ， 还 有 栈 和 指令 指针 ， 但 诸如 算术 运算 器 、cache、 内 存 接口 等 执行 资源 没有 
重复 。 由 于 多 个 结构 状态 的 存在 ，CPU 看 起 来 像 是 包含 了 一 组 核 (有 时 也 叫 逻 辑 处 理 顺 )， 
可 以 并 行 执行 多 个 指令 流 或 者 线程 ， 而 不 用 理会 它们 是 否 属 于 同一 个 程序 。 硬 件 必 须 记 录 指 
令 属 于 哪个 结构 状态 。 所 有 线程 共享 这 些 执行 资源 ， 所 以 由 流水 线 阻 塞 而 产生 的 气泡 可 以 用 
另外 一 个 线程 的 指令 来 填充 。 如 果 存 在 并 行 运行 的 多 个 流水 线 (参见 1.2.4 节 )， 一 个 线程 搁 
置 了 或 者 多 个 流水 线 正 处 于 空闲 状态 ， 则 另 一 个 线程 就 可 以 使 用 它们 ， 参 见 图 1-20. 
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1-20 (多 ) 流水 线 微 处 理 器 上 的 数据 流 和 控制 流 简 化 的 框图 ， 具 有 二 路 SMT。 两 个 指令 流 
(线程 ) 共享 cache、 流 水 线 等 资源 ， 但 是 具有 其 各 自 的 结构 状态 (寄存 器 、 控 制 单元 
等 )。 图 形 由 Intel 提供 


SMT 可 以 通过 多 种 不 同 的 方式 实现 。 这 些 方式 的 一 个 不 同 点 是 在 流水 线 上 线程 如 何 实 
现 切 换 。 理 想 的 情况 切换 按 周期 发 生 ， 但 是 很 多 实现 方式 需要 将 流水 线 全 部 清空 来 支持 另外 
一 个 线程 ， 这 会 带 来 非常 大 的 延迟 。 

如 果 多 个 线程 的 代码 既 可 以 发 射 在 同一 流水 线 内 也 可 以 发 射 在 不 同 的 流水 线 上 ， 则 
SMT 可 以 提高 指令 的 吞吐 量 。 如 果 不 同 的 线程 使 用 不 同 的 执行 资源 ， 比 如 浮 点 运算 和 整数 
运算 ， 就 很 容易 提高 吞吐 量 。 一 般 以 浮 点 操作 为 主 的 科学 计算 ， 经 过 很 好 的 优化 后 ， 并 不 能 
从 SMT 中 获 益 太 多 ， 但 是 也 有 例外 : 在 一 些 架构 上 ， 内 存 引 用 表 的 数量 与 现 线程 数量 一 致 
时 ， 同 时 运行 足够 多 的 线程 就 能 够 充分 利用 主 存 带宽 。 

如 果 对 于 拥有 SMT 的 线程 资源 有 限 ， 单 个 指令 流 的 性 能 不 会 提高 ， 甚 至 会 有 小 小 地 下 
降 。 并 且 ， 多 个 线程 共享 很 多 资源 尤其 是 cache 时 ， 如 果 代 码 对 cache 容量 敏感 就 很 可 能 增 
加 cache 容量 冲突 (由 高 速 缓存 容量 较 小 引起 的 容量 冲突 )。 最 后 ，SMT 会 严重 增加 同步 操 
作 的 开销 : 如 果 同 一 物理 核 执行 的 几 个 线程 都 通过 执行 紧凑 的 自 旋 等 待 循环 等 待 某 些 事件 ， 
它们 将 阮 争 共享 的 执行 单元 ， 这 将 导致 很 大 的 同步 延 返 。[132，133，M41] 

如 果 系 统 上 有 多 个 物理 核 ， 并且 操作 系统 和 程序 员 了 解 SMT 机 制 ， 那 么 在 不 同 物理 核 
上 默认 运行 不 同 程序 的 线程 和 进程 是 一 个 不 错 的 想法 ， 但 只 有 在 确保 安全 时 才 使 用 SMT 来 
提高 总 体 性 能 。SMT 的 出 现 ， 仿 射 机 制 将 比 在 多 核 芯 片上 更 重要 (参考 1.4 节 和 附录 A). 
对 于 手头 的 应 用 程序 ， 需 要 彻底 测试 才能 确定 SMT 机 制 是 否 能 提高 性 能 。 如 果 不 能 在 一 个 
物理 核 上 通过 合适 仿 射 应 该 只 保留 一 个 逻辑 核 ， 并 且 如 果 可 能 的 话 SMT 应 该 被 一 起 关 掉 。 


1.6 ” 回 量 处 理 普 
从 Cray 1 超级 计算 机 开始 ， 直 到 基于 RISC 的 高 度 并 行 计 算 机 出 现 之 前 ， 向 量 机 一 直 占 
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据 着 科学 计算 的 主要 领域 。 在 写 这 本 书 时 ， 只 有 两 家 公司 还 在 制造 和 销售 向 量 机 。 但 因为 对 
内 存 带 宽 和 运行 时 间 有 高 度 需求 ， 向 量 机 还 是 有 着 一 个 充满 商机 的 市 场 。 

根据 设计 ， 对 于 合适 的 可 回 量化 的 代码 ， 回 量 处 理 需 相 较 于 标准 的 微 处 理 融 可 以 达到 一 
个 较 好 的 实际 性 能 。 这 种 设计 遵循 单 指令 多 数据 (SIMD) 的 范例 ， 即 一 条 简单 的 机 兹 指令 
被 自动 地 应 用 于 很 多 类 型 相同 的 参数 。 许 多 现代 的 基于 cache 的 微 处 理 器 以 扩展 SISD 指令 
集 的 形式 采用 这 些 技术 (细节 参考 2.3.3 节 )。 而 且 向 量 机 在 执行 单元 和 存储 子 系统 上 有 大 量 
的 并 行 操作 。 


1.6.1 设计 原理 


现代 和 同 量 处 理 需 与 RISC WISE HR, ARAL AT FE aR FT A aa LAS: 机 器 指令 运行 在 
回 量 寄存 器 上 ， 每 个 回 量 寄存 器 存储 长 度 在 64 ~ 256 ( 双 精 度 ) 之 间 的 一 些 参 数 。 向 量 寄 存 
器 的 宽度 称 为 问 量 长 度 已 。 对 于 每 一 种 算术 运算 ， 像 加 法 、 乘 法 、 除 法 等 都 分 别 有 一 条 流 
水 线 ， 每 一 条 流水 线 在 每 个 指令 周期 都 可 以 得 到 一 定数 目的 结果 。 对 于 乘法 和 加 法 流水 线 来 
说 ， 得 到 2 ~ 16 个 结果 ， 这 也 称 作 多 轨 流 水 线 (multitrack pipeline) (参考 图 1-21 ) 。 其 他 像 
平方 根 和 除法 操作 比较 复杂 ， 流 水 线 的 输出 要 低 很 多 。 但 是 即使 只 有 单一 流水 线 的 向 量 处 理 
器 也 可 以 达到 基于 cache 的 超标 量 微 处 理 器 相同 的 峰值 性 能 。 为 了 加 向 量 寄存 器 提供 数据 ， 
有 一 个 或 者 多 个 直接 跟 主 存 相连 的 读 取 、 存 储 、 读 取 与 存储 相 结合 的 流水 线 。 尽 管 最 近 像 
NEC SX-9 的 设计 引进 了 容量 小 的 片上 存储 ， 但 传统 的 向 量 CPU 没有 缓存 层次 的 概念 。 





图 1-21 具有 4 轨 流 水 线 的 典型 向 量 机 简 图 


为 了 在 回 量 CPU 上 获得 合理 的 性 能 ， 必 须 采 用 SIMD 类 型 的 指令 。 我 们 来 看 一 个 简单 
的 例子 ， 有 两 个 数组 A(1 : N) = B(1 : N) + C(1 :N)。 在 一 个 基于 cache 的 微 处 理 器 上 ， 这 个 
运算 最 终 的 实现 是 在 A、B 和 C 上 的 一 个 循环 (可 能 会 软 流 水 )， 对 于 每 一 次 计算 ， 必 须要 
执行 两 次 读 取 操 作 、 一 个 加 操作 和 一 个 存储 操作 ， 并 且 还 必须 有 整 型 和 分 支 逻 辑 来 实现 循 
环 。 如 果 数 组 的 长 度 比 寄 存 器 长 度 短 ， 则 向 量 CPU 可 以 对 于 整个 数组 使 用 一 条 指令 : 
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vload V1(1:N) = B(1:N) 

vload V2(1:N) = C(1:N) 

vadd V3(1:N) = V1(1:N) + V2(1:N) 
4 vstore A(1:N) = V3(1:N) 


在 这 里 ，V1、V2、V3 表示 向 量 寄存 器 。 追 踪 分 散在 不 同 的 流水 线 上 的 向 量 索 引 的 工作 
是 自动 完成 的 。 如 果 数 组 的 长 度 比 向 量 的 长 度 大 ， 循 环 就 必须 以 向 量 长 度 为 单位 分 块 执行 : 


1 do S = 1,N,Ly 

2 E = min(N,S+L,-1) 

3 L = E-S+1 

4 vload V1(1:L) = B(S:E) 

5 vload V2(1:L) = C(S:E) 

6 vadd V3(1:L) = V1(1:L) + V2(1:L) 
7 vstore A(S:E) = V3(1:L) 

s enddo 


这 个 工作 由 编译 器 自动 完成 。 

像 向 量 加 这 样 的 操作 并 不 需要 等 到 向 量 寄 存 器 将 所 有 参数 都 准备 就 绪 才 开始 运算 ， 而 是 
可 以 在 最 初 的 一 些 参 数 就 绪 之 后 就 可 以 开始 执行 。 这 个 特征 称 为 链接 〈chaining)， 这 也 是 不 
同 管道 (例如 乘法 、 加 法 ) 能 够 同时 操作 的 必要 条 件 。 

很 明显 ， 在 RISC 出 现 前 向 量 结 构 明 显 地 降低 了 指令 发 射 速率 的 要 求 ， 那 个 时 候 多 发 射 
超标 量 处 理 器 还 没有 足够 快 的 指令 cache。 更 重要 的 是 ， 读 取 /存储 操作 的 速率 需要 和 CPU 
核 频 率 匹 配 ， 所 以 为 运算 流水 线 提供 数据 就 更 不 是 问题 了 。 由 于 现代 内 存心 片 在 一 次 缓存 
操作 后 需要 几 个 时 钟 周 期 的 恢复 时 间 (也 称 为 bank 忙碌 时 间 )， 所 以 可 以 通过 有 大 量 的 bank 
结构 的 内 存 布局 来 实现 两 者 速率 的 匹配 。 为 了 减 小 两 者 之 间 的 差距 ， 现 代 癌 量 机 提供 数 以 千 
计 的 内 存 bank， 这 也 导致 了 这 种 结构 对 于 通用 计算 来 说 相当 昂 贯 。 总 之 ， 回 量 处 理 顺 是 通 
过 高 度 并 行 的 流水 线 以 及 高 带宽 的 内 存 访问 来 获得 它 的 性 能 。 

编写 程序 以 使 编译 器 产生 有 效 SIMD 辐 量 指令 称 为 回 量化 。 有 时 候 需 要 代码 重 构 或 者 在 
源 代 码 中 插入 指令 指针 来 帮助 编译 器 确认 SIMD 并 行 。 每 一 个 向 量 处 理 器 都 有 一 个 单独 的 标 
量 单 元 ， 用 来 执行 那些 不 能 向 量化 的 代码 ( 接 下 来 的 章节 中 讨论 ) 并 完成 任务 管理 工作 。 问 
量 处 理 需 中 的 标量 单元 要 比 标准 的 RISC 或 基于 x86 设计 中 的 标量 单元 差 很 多 ， 所 以 为 了 获 
得 高 性 能 ， 癌 量化 就 显得 格外 重要 。 如 果 代 人 码 不 能 被 加 量化 ， 则 使 用 向 量 机 不 会 带 来 任何 
好 处 。 


1.6.2 ”最 高 性 能 估计 


回 量 处 理 需 的 峰值 性 能 可 以 通过 加 法 和 乘法 流水 线 的 track 数目 以 及 时 钟 频率 得 到 。 比 
如 ， 一 个 2GHz 的 向 量 处 理 融 以 及 具有 4 个 track 的 流水 线 ， 峰 值 性 能 是 : 
2( 加 法 十 乘法 ) X4(track) X2(GHz)= 16 GFlop/s 
求 平 方 根 、 除 法 和 其 他 操作 由 于 有 着 较 差 的 吞吐 量 ， 对 计算 峰值 性 能 没有 较 大 的 贡献 ， 
所 以 在 这 里 不 予 考虑 。 关 于 内 存 带 宽 ， 有 4 个 track 的 LD/ST (参见 图 1-21 ) 流水 线 可 以 得 
到 的 读 写 市 宽 为 : 


w N 


4 (track) X 2 (GHz) X 8(B)= 64 GB/s 
这 恰好 是 NEC SX-8 处 理 需 的 标准 规格 。 和 基于 cache 的 标准 微 处 理 器 相 比 ， 向 量 处 理 
器 的 内 存 接口 的 频率 通常 和 核 相 同 ， 能 够 为 峰值 性 能 提供 更 高 的 带宽 。 注 意 到 上 面 这 些 计 算 
都 是 建立 在 一 个 假设 上 : 向 量 处 理 单元 一 定 会 被 用 到 如 果 代 码 是 不 可 向 量化 的 ， 因 为 要 
受 标量 单元 的 限制 ， 所 以 不 管 峰值 性 能 或 者 峰值 存储 带宽 都 不 能 达到 。 





通常 对 于 一 个 拥有 简单 内 存 访问 类 型 的 循环 ， 其 性 能 可 以 预测 。 第 3 草 将 会 对 平衡 分 析 
给 予 详细 介绍 ， 例 如 对 结构 和 循环 代码 的 特点 进行 性 能 预测 。 对 于 向 量 处 理 器 ， 由 于 不 存 
在 cache， 所 以 预测 一 般 会 比较 简单 。 以 代码 清单 1-1 为 例 ，3 次 读 取 操作 ，1 次 存储 操作 和 
两 个 浮 点 操作 (加 法 和 乘法 )。 由 于 只 有 单一 的 LD/ST 管道 ， 读 取 和 存储 操作 ， 甚 至 对 不 同 
数组 的 读 取 操作 都 不 能 够 重 和 至 。 但 它们 可 以 重 秋 算术 管道 并 链接 到 算术 管道 。 在 图 1-22 中 ， 
长 平行 四 边 形 代表 在 向 量 寄存 器 上 的 一 个 操作 ， 标 志 着 管道 操作 的 执行 〈 与 图 1-5 中 的 时 间 
线 很 像 )。 首 先 必须 向 一 个 向 量 寄存 器 中 从 数组 C 读 取 数据 ，LD/ST 管道 开始 于 用 数组 D 中 
的 数据 填充 向 量 寄存 器 ， 乘 法 管道 就 可 以 开始 在 C 和 D 上 执行 算数 运算 。 只 要 来 自 B 的 数 
据 可 用 ， 加 法 管道 就 可 以 计算 出 最 终结 果 ， 继 而 LD/ST 管道 将 结果 存储 到 内 存 。 


一 一 一 一 一 
时 间 





A(:)=B(:)+C(:)* D(:) 
图 1-22 在 图 1-21 展示 的 向 量 处 理 器 上 执行 三 维 癌 量 算法 ( 见 代 码 清单 1-1 )， 使 用 了 流水 线 
后 的 时 间 线 。 浅 灰色 四 边 形 代 表 没 有 使 用 的 运算 单元 


整个 过 程 的 性 能 瓶颈 很 显然 是 LD/ST 流水 线 。 如 果 给 予 合 适 的 代码 ， 硬 件 能 够 在 相同 
时 间 内 执行 4 倍 的 乘法 和 加 法 指令 (图 1-22 中 浅 灰 色 萎 形 )， 所 以 代码 清单 1-1 的 性 能 只 能 
达到 峰值 性 能 的 23%， 在 上 面 描述 的 向 量 处 理 器 上 性 能 为 4 GFlop/s， 这 与 图 1-4 中 的 SX-8 
X 很 大 时 的 曲线 完全 吻合 。 需 要 注意 的 是 ， 由 于 向 量 系 统 上 有 很 大 的 内 存 延 迟 ， 所 以 这 个 限 
制 只 对 相对 大 的 X 值 可 以 达到 。 另 外 ， 除 了 不 可 向 量化 的 代码 ， 短 循环 是 第 二 大 影响 这 些 
结构 的 性 能 因素 。 


1.6.3 程序 设计 


向量 化 的 必要 条 件 是 在 循环 的 迭代 之 间 不 存在 真 数据 相关 。 软 流水 ( 见 1.2.3 节 ) 也 同 
样 不 能 出 现 真 数 据 相关 ， 例 如 允许 向 前 引用 (forward reference) 但 是 向 后 引用 (backward 
reference) 会 影响 癌 量 化 。 更 精确 地 讲 ， 真 相关 的 位 移 间隔 必须 大 于 某 一 靖 值 (至 少 是 向 量 
的 长 度 ， 有 时 更 大 )， 这 样 前 面向 量 操 作 的 结果 才 会 是 可 用 的 。 

因为 与 “单条 指令 ”的 编程 规范 冲突 ， 内 部 循环 中 的 分 支 也 会 影响 向 量化 。 但 是 我 们 有 
一 些 方法 来 支持 回 量 化 循环 中 的 分 支 : 

口 掩 位 吞 存 器 (mask register， 本 质 上 是 向 量 长 度 的 布尔 寄存 器 ) 用 来 实现 循环 迭代 的 

选择 性 执行 。 我 们 来 看 下 面 一 个 例子 : 


1 do i= 1;N 

2 if(y(i) .le. 0.d0) then 
3 x(i) = s * y(i) 

4 else 

5 x(i) = y(i) * y(i) 

6 endif 

7 enddo 


本 


首先 ， 使 用 逻辑 流水 线 根据 分 支 条 件 产 生 一 个 每 位 为 布尔 类 型 的 向 量 。 接 下 来 这 个 回 量 
被 用 来 从 if 或 者 else 分 支 中 选择 结果 ( 见 图 1-23 )。 当 然 ， 如 果 有 开销 大 的 操作 ， 那 么 所 有 
的 循环 分 支 都 被 执行 显然 是 一 种 浪费 ， 但 是 回 量化 的 利 大 于 弊 。 


向 量 寄存 器 。 。 向 量 寄存 器 。 掩 位 寄存 器 向 量 寄 存 器 





图 1-23 在 向 量 处 理 器 上 ， 具 有 if/else 分 支 的 循环 使 用 掩 位 寄存 器 向 量化 


O 对 于 单个 分 支 (没有 else 部 分 )， 特 别 在 包括 像 除 和 平方 根 这 些 操作 的 情况 下 ， 
gather/scatter 是 一 种 癌 量 化 的 有 效 方 法 。 在 下 面 的 例子 中 ， 如 果 分 支 预 测 大 部 分 情况 
为 假 时 ， 像 图 1-23 中 那样 使 用 掩 位 寄存 融会 浪费 很 多 计算 资源 : 


ı do i = 1,N 

2 if (y(i) .ge. 0.d0) then 
3 x(1) = sqrt(y(i)) 

4 endif 

5 enddo 


5 88 fic FF FF at A VF] (参见 图 1-24 )， 所 有 必要 的 元 素 首先 被 收集 到 向 量 寄存 器 中 
(gather)， 然 后 执行 回 量 操作 ， 最 后 执行 的 结果 被 存储 回去 (scatter) 。 









ASAAN 


向 量 寄存 器 
图 1-24 gather/scatter 方法 的 向 量化 。 只 有 当 掩 位 寄存 器 对 应 位 置 的 元 素 为 真 时 才能 通过 主 存 
进行 数据 传输 ， 数 据 的 读 取 和 存储 用 的 也 是 相同 的 一 套 掩 码 
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编译 器 会 自动 执行 向 量化 操作 (可 能 是 源 代码 直接 支持 向 量化 ) 或 者 代码 被 重 写 使 得 可 
以 显 式 地 使 用 临时 数组 来 保存 所 需 的 向 量 数据 。 还 有 另 一 种 替代 方案 ， 使 用 列表 回 量 ， 它 是 
一 个 整 型 的 向 量 数组 ， 保 存 着 条 件 为 真 的 索引 ， 通 过 间接 访问 ， 这 些 索引 可 以 用 来 重 构 原 始 
循环 。 
由 于 cache 行 的 概念 ， 基 于 cache 处 理 器 对 gather/scatter 操作 开销 非常 大 ， 而 向 量 处 理 
器 能 更 经 济 地 执行 ( 即使 跨度 为 1 的 访 存 模式 更 有 效 )。 
关于 向 量 结构 的 编程 和 优化 可 以 从 生产 商 处 获得 更 多 参考 文档 [V110，V111]。 


习题 
1.1 除法 的 速度 。 写 一 段 代 码 对 下 列 函数 积分 : 
4 
I= 
x 从 0 一 1， 结 果 应 该 是 m MIWA. MAREE A RT VAS, BRIE IEA x, AK 
Ax, AA fæ), HERH: 


double precision :: x, delta_x, sum 
integer, parameter :: SLICES=100000000 
sum = 0.d0 ; delta_x = 1.d0/SLICES 
do i=0,SLICES-1 

x = (i1+0.5)*delta_x 

sum = sum + 4.d0 / (1.d0 + x * x) 
enddo 
pi = sum * delta_x 


完成 程序 段 ， 选 择 合 适 的 Ax， 判 断 结 果 是 不 是 n 的 近似 值 ， 并 计算 性 能 ， 结 果 单 位 为 MFlop/s。 
假设 浮 点 除法 不 能 被 流水 线 运行 ， 试 估计 延迟 为 多 少时 间 周 期 。 
1.2 数据 依赖 。 在 1.2.3 节 我 们 讨论 了 流水 线 ， 请 看 以 下 代码 : 


1 do i = ofst+1,N 
2 A(i) = s*A(i-ofs) 
3 enddo 


s 是 一 个 非 零 的 双 精 度 浮 点 标量 ，ofs 是 一 个 正 整 数 ，A 是 一 个 长 度 为 N 的 双 精 度数 组 。 如 果 N 
足够 小 ， 能 使 数组 A 的 元 素 在 L1 cache 中 都 能 命中 ， 对 于 不 同 的 ofs ， 请 预计 循环 的 性 能 。 

13 硬件 预 取 。 预 取 是 一 个 有 效 利 用 内 存 接口 的 重要 操作 。x86 设计 的 硬件 预 取 通常 一 次 取 满 整 内 存 
页 数据 。 试 说 明 这 可 能 对 程序 性 能 产生 的 负面 效应 。 

1.4 点 积 和 预 取 。 考 虑 双 精 度 浮 点 数 的 点 积 操 作 : 


1 do i=1,N 
2 s =s + A(i) * B(i) 
3 enddo 


NARHA. CPU (时 间 周 期 为 Ins) 能 在 一 个 周期 内 做 一 次 读 取 (或 者 存储 )， 一 次 乘法 和 一 次 加 法 

(假设 循环 计数 和 分 支 不 产生 时 间 消 耗 )。 存 储 总 线 的 传输 速率 为 3.2GB/s。 假 设 从 存储 读 取 一 个 

cache 行 的 延迟 为 100 个 CPU 周期 ， 一 个 cache 行 的 长 度 为 4 个 双 精 度 浮 点 数 。 在 以 下 情况 下 : 

(a) 如 果 没 有 指令 预 取 ， 循环 的 性 能 怎样 ? 

(b) 假设 CPU 有 预 取 的 能 力 ， 为 了 使 代码 有 效 利用 带宽 (隐藏 延迟 )， 需 要 CPU 能 容忍 预 取 多 
少 条 指令 ? 

(c) 如 果 cache 行 的 长 度 变 为 以 前 的 2 倍 、4 倍 ，(b) 中 算出 的 数值 会 怎样 变化 ? 2a 

(d) 如 果 我 们 假设 指令 预 取 能 隐藏 所 有 的 延迟 ， 循 环 的 性 能 怎样 ? 36 
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串 行 代码 基本 优化 技术 





在 千 核 级 并 行 计 算 机 时 代 ， 有 些 观点 认为 编写 高 效 串 行 代 码 在 许多 领域 已 经 有 些 过 时 
了 。 因 为 增加 更 多 CPU 以 获得 大 规模 并 行 能 力 要 比 投入 大 量 精力 优化 串 行 代码 简单 得 多 。 
这 似乎 是 一 个 合理 的 理论 ，5.3.8 节 的 论述 中 也 体现 了 对 这 种 观点 的 支持 。 然 而 ， 本 书 认为 
程序 在 单 处 理 锅 上 的 性 能 优化 毫 无 疑问 是 最 重要 的 ， 如 果 通 过 一 些 简单 的 优化 方法 就 可 以 实 
现 两 们 加 速 比 ， 那 么 用 户 会 更 倾向 于 使 用 较 少 的 CPU。 这样 不 仅 可 把 宝贵 的 计算 资源 释放 
给 其 他 用 户 或 项 目 ， 而 且 还 可 以 使 投入 大 量 资金 购买 的 硬件 获得 更 加 有 效 的 利用 。 因 此 ， 并 
行 代码 性 能 优化 的 第 一 步 应 该 是 在 单 处 理 融 上 的 优化 ， 使 其 运行 速度 加 快 。 本 章 总 结 了 串 行 
代码 放 析 和 优化 的 基本 工具 和 策略 。 第 3 蕴 会 进行 更 深入 的 讨论 ， 特 别 是 数据 传输 优化 的 相 
关内 容 。 


2.1 标量 剖析 


收集 程序 行为 的 相关 信息 ， 特 别 是 程序 对 资源 的 使 用 信息 ， 这 个 过 程 称 为 程序 剖析 。 其 
中 ， 在 高 性 能 计算 方向 最 重要 的 “资源 ”是 运行 时 间 。 因 此 ， 常 见 的 剖析 策略 是 评估 程序 中 
不 同 函 数 ， 甚 至 某 几 行 关 键 代 码 的 运行 时 间 ， 并 以 此 确定 热点 (hot spot， 运 行 时 间 占 主导 地 
位 的 代码 段 )。 这 些 热点 随后 会 被 剖析 ， 并 尽 可 能 地 进行 优化 。2.1.1 节 分 别 介 绍 了 基于 函数 
和 基于 代码 行 的 程序 剖析 方法 。 

然而 ， 即 使 已 经 确定 热点 ,但 在 很 多 情况 (特别 是 这 些 函 数 或 者 代码 块 包 含 多 行 代 码 ) 
下 ， 造 成 性 能 瓶颈 的 原因 却 并 不 明确 。 这 时 ， 确 定 程 序 性 能 限制 因素 (如 主 存 数据 访问 或 流 
水 线 阻塞 ) 的 愿望 就 会 非常 迫切 。 如 果 数 据 访问 是 主要 限制 因素 ， 则 最 直接 的 方法 是 确定 导 
致 程序 性 能 降低 的 数据 访 存 操作 。 解 决 这 个 问题 的 有 效 途 径 是 使 用 硬件 性 能 计数 器 ， 可 提供 
当前 系统 使 用 的 所 有 处 理 器 信息 ， 并 提供 芯片 和 系统 内 资源 使 用 情况 的 深入 分 析 。2.1.2 节 
对 此 会 有 详细 讨论 。 

应 该 指出 ， 在 很 多 情况 下 ， 我 们 对 串 行 代码 的 性 能 提升 无 能 为 力 。 因 此 ， 使 用 户 能 够 确 
定 优化 工作 的 有 效 性 至 关 重 要 。3.1 节 提 供 了 此 类 常见 情况 的 指导 。 


2.1.1 基于 函数 和 代码 行 的 程序 剖析 


一 般 情况 下 ， 基 于 函数 和 代码 行 的 剖析 主要 有 两 种 技术 : 代码 插入 和 采样。 代码 插入 的 
工作 原理 是 让 编译 髓 修改 每 个 清 数 的 调用 ， 并 插入 代码 以 记录 这 些 调用 、 调 用 者 (或 者 完整 
调用 栈 ) 以 及 可 能 需要 的 时 间 人 信息。 显然 ， 这 个 技术 会 导致 明显 的 额外 开销 (特别 是 当代 码 
执行 时 间 非 常 短 时 )。 虽 然 代 码 插入 技术 会 试图 弥补 这 些 开 销 ， 但 仍然 存在 很 多 不 确定 性 。 
相对 这 些 额外 开销 ， 代 码 采 样 有 着 明显 优势 : 程序 在 一 定 的 时 间 间 隔 (如 10ms) 内 被 周期 性 
中 断 ， 并 且 记 录 程 序 计 数 器 (或 当前 调用 栈 ) 信息 。 这 个 过 程 本 质 上 是 统计 ， 代 码 运行 的 时 
间 越 长 ， 产 生 的 结果 就 越 精 确 。 结 合 目标 代码 相关 信息 ， 代 码 抽样 还 可 以 在 源 代 码 行 甚 至 机 
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(只 有 一 个 人 口 和 出 口 ， 代 码 块 间 又 没有 相互 调用 和 跳 转 ) 上 的 使 用 。 

1. AAH T 

GNU binutils 包 提 供 的 gprof 2 Am Z KA LA. gprof 使 用 代码 抽样 和 插入 
技术 ， 收 集 函 数 谢 析 和 调用 图 (也 称 为 蝴蝶 图 ) 文件 。 为 激活 剖析 功能 ， 代 码 编译 时 必须 指 
定 合适 的 编译 选项 〈 许 多 现代 编译 器 都 能 够 产生 与 gprof 兼容 的 指令 : 如 GCC， 使 用 -pg 编 
译 选 项 ) 并 运行 一 次 。 这 将 产生 一 个 人 工 不 可 读 、 但 可 被 gprof 理解 的 输出 文件 : gmon.out。 
这 个 文件 包含 了 程序 中 所 有 因数 的 执行 时 间 以 及 它们 的 调用 频次 信息 : 


1 % cumulative self self total 

2 time seconds seconds calls ms/call ms/call name 

3 70.45 5.14 5.14 26074562 0.00 0.00 intersect 
à 26.82 7.03 1.90 4000000 0.00 0.00 shade 

5 3. 12 7.30 日 ,之 了 100 2s TL 73.03 calc_tile 


每 一 行 代表 一 个 函数 ， 各 列 解释 如 下 : 

%time : 因数 独立 运行 时 间 (不 包含 被 该 函数 调用 的 其 他 孔 数 的 运行 时 间 ) 占 总 运行 时 
间 的 百分比 。 

cumulative seconds: 所 有 了 晴 数 的 累积 运行 时 间 (包括 自身 )。 

self seconds : 了 艺 数 的 独立 运行 时 间 (单位 : 秒 )。 默 认 情 况 下 ， 表 单 会 根据 这 一 列 信息 
进行 排序 。 

calls: 函数 被 调用 的 次 数 。 

self ms/call: 因数 每 次 调用 的 平均 独立 运行 时 间 (单位 : ms). 

total ms/call : 函数 每 次 调用 的 平均 整体 运行 时 间 (包括 被 它 调用 的 其 他 函数 的 运行 时 间 ， 
单位 : ms). 

根据 gmon.out， 上 面 实例 的 优化 工作 应 该 从 intersectO 函数 开始 ， 同 时 也 要 关 
注 shade() 函数 的 优化 。 函 数 的 独立 运行 时 间 暗 示 了 优化 该 函数 所 能 获得 的 最 大 性 能 提 
升 。 例 如 ， 如 果 能 将 shade() 函数 的 性 能 提高 两 倍 ， 那 么 整个 应 用 程序 的 运行 时 间 为 
7.3-0.95=6.35s, KASEI ST 15% 的 性 能 提升 。 

注意 ， 程 序 剖 析 结 果 关 键 取 决 于 编译 器 执行 内 联 函 数 的 能 力 。 内 联 是 一 种 使 用 函数 体 本 
且 蔡 代 函 数 调用 接口 ， 以 减少 函数 调用 开销 的 优化 方法 (更 加 深入 的 讨论 见 2.4.2 节 )。 如 果 
编译 需 支 持 内 联 功能 ， 那 么 剖析 结果 可 能 会 被 严重 曲解 ( 当 热 点 函数 被 内 联 执行 时 ， 其 运行 
时 间 会 作为 调用 函数 运行 时 间 的 一 部 分 输出 )。 当 内 联 函 数 对 程序 性 能 有 明显 影响 ， 而 编译 
AN / 剖析 融 不 文 持 对 内 联 函 数 的 正确 训 析 时 ， 需 要 禁止 内 联 功 能 。 当 然 ， 这 样 可 能 会 对 程序 
性 能 产生 明显 影响 。 

虽然 剖析 文件 已 经 包含 了 大 量 信 息 。 然 而 ， 它 并 没有 说 明 当 一 个 函数 被 几 个 不 同 函 数 调 
用 时 ， 对 运行 时 间 的 贡献 是 怎么 样 的 ; 这 个 函数 又 调用 了 哪 几 个 子 函 数 ， 当 这 些 子 函数 依次 
调用 时 ， 对 运行 时 间 又 贡献 了 多 少 。 蝴 蝶 图 (函数 调用 图 ) 提供 了 这 些 信 息 。 


1 index % time self children called name 

2 0.27 7.03 100/100 main [2] 

3 [1] 99.9 0..27 71.03 100 calc tile [1] 

4 1.90 5.14 4000000/4000000 shade [3] 

5 Te ee Á- ee ee ee ee ee TT Á. a a ‚1 

6 <spontaneous> 


7 [2] 99.9 0.00 T30 main [2] 


39 | 


40 | 
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§ 0.27 7.03 100/100 calc tile [1] 

eter ee sees eae amen ead ea 

10 5517592 shade [3] 

ni 1.90 5.14 4000000/4000000 calc_tile [1] 

i C39 96.2 1.90 5.14 4000000+5517592 shade [3] 

i3 5,14 0.00 26074562/26074562 intersect [4] 
14 5517592 shade [3] 
下 

is 5.14 0.00 26074562/26074562 shade [3] 

7 64] 70.2 5.14 0.00 26074562 intersect [4] 


调用 图 的 每 一 部 分 代表 一 个 函数 ， 最 左边 显示 了 该 函数 的 运行 索引 。 位 于 该 索引 之 上 的 
男 数 是 当前 函数 的 调用 者 果 数 (调用 当前 函数 的 困 数 )， 之 下 的 是 被 调用 者 函数 (被 当前 函数 
调用 的 函数 )。 同 时 ， 调 用 图 也 说 明了 函数 的 递归 调用 ( 见 shade) 函数 ) 情况 。 调 用 图 各 个 

%time 对 应 函数 运行 时 间 (包括 被 调用 者 函数 的 运行 时 间 ) 占 总 运行 时 间 的 百分比 。 这 
应 该 等 于 训 析 文件 中 该 函数 的 “调用 次 数 ” 与 “每 次 调用 整体 运行 时 间 ” 的 乘积 。 

self 对 应 函数 的 独立 运行 时 间 (与 误 析 文件 一 样 ， 不 包括 被 调用 者 函数 的 运行 时 间 )。 对 
于 调用 者 函数 (Ral A PRB) 行 ， 该 列 值 说 明了 对 应 也 数 (被 调用 者 函数 ) 对 其 调用 者 函 
BX OTN PRIA) 的 整体 运行 时 间 贡 献 。 

children : 对 应 函数 的 整体 运行 时 间 减 去 独立 运行 时 间 (对 应 函数 的 被 调用 者 函数 的 总 
运行 时 间 )。 对 于 调用 者 函数 行 ， 其 列 值 为 对 应 艺 数 的 被 调用 者 函数 对 其 调用 者 函数 运行 的 
时 间 贡 献 。 对 于 被 调用 者 困 数 行 ， 其 列 值 为 对 应 果 数 的 被 调用 者 函数 的 被 调用 者 果 数 对 该 函 
数 的 运行 时 间 贡 献 。 

called : 对 应 函数 的 调用 次 数 (可 分 为 递归 调用 次 数 + 非 递归 调用 次 数 ， 如 shade0 K 
数 )。 对 于 调用 者 困 数 行 ， 其 列 值 为 该 晒 数 被 调用 者 函数 的 调用 次 数 。 对 于 被 调用 者 函数 行 ， 
其 列 值 为 被 调用 者 函数 被 该 晒 数 调用 的 次 数 。 

目前 有 很 多 工具 实现 了 蝴蝶 图 的 可 视 化 。 借 助 可 视 化 蝴蝶 图 ， 可 浏览 整个 调用 树 并 快速 
找到 关 “ 键 路 径 ”， 即 对 整体 运行 时 间 起 主导 作用 的 函数 序列 : 从 根 节点 到 某 些 叶子 节点 。 

2. 基于 行 的 剖析 

如 果 竺 剖析 程序 中 有 大 函数 (代码 行 作 为 计量 单位 )， 这 个 函数 的 运行 时 间 又 在 整体 运 
行 时 间 中 占 很 大 比例 时 ， 基 于 函数 的 剖析 就 显得 力不从心 了 : 


1 % cumulative self self total 

2 time seconds seconds calls s/call s/call name 

3 73-21 13.47 13.47 1 13.47 18.40 MAIN __ 
4 6.47 14.66 1.19 21993788 0.00 0.00 mvteil_ 
5 6.36 15,83 1.17 51827551 0.00 0.00 ranl_ 

6 6.25 16.98 1.15 35996244 0.00 0.00 gzahl_ 


如 上 表 所 示 ，Fortran 程序 的 main 图 数 大 约 有 1700 行 代码 ， 运 行 时 间 占 总 体 运行 时 间 
的 73%。 如 果 使 用 简单 方法 不 能 确定 这 类 函数 的 热点 ， 就 需要 借助 基于 行 的 剖析 工具 。 目 
前 ， 有 许多 这 种 开源 或 者 商业 工具 ， 可 在 不 同 层面 上 完成 基于 行 的 代码 剖析 工作 。 本 节 以 开 
源 工 具 OProfile[T19] 为 例 说 明基 于 行 的 程序 训 析 过 程 。 需 要 说 明 的 是 ，OProfile 也 具有 基 
于 函数 的 程序 剖析 功能 ， 在 某 种 程度 上 可 代替 gprof。 使 用 OProfile 的 唯一 前 提 是 程序 必须 
进行 可 调式 编译 (通常 通过 添加 编译 选项 -g 实现 )， 不 需要 其 他 特殊 指令 。 然 后 启动 后 台 剂 
析 程 序 (通常 由 系统 超级 管理 员 启 动 )， 以 监控 整个 计算 机 系统 并 收集 正在 运行 的 所 有 二 进 
制 文件 信息 。 最 后 ， 用 户 可 提取 一 个 特定 二 进 制 文件 的 相关 信息 。 除 其 他 事项 外 ， 这 个 信息 
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可 以 看 作 带 注释 的 源 代 码 : 每 一 行 源 代码 都 添加 了 相应 的 采样 命中 次 数 (第 一 列 ) 和 占 全 部 
程序 采样 的 相对 百分比 (第 二 列 ) 信息 : 


è DO 215 M=1,3 
4292 0.9317 : bremsdir(M) = bremsdir(M) + FH(M)*Z12 


I 
2 

3 1462 0.3174 : 215 CONTINUE 

4 H 

5 682 0.1481 : U12 = U12 + GCL12 * Upot 

Š ‘ 

7 : DO 230 M=1,3 

8 3348 0.7268 : F(M,1)=F (M, I) +FH (M) *Z12 

9 1497 0.3250 : Fion (M)=Fion (M)+FH (M) *Z12 
10 501 0.1088 :230 CONTINUE 


然而 ， 对 这 些 数据 的 使 用 必须 要 特别 小 心 。 为 使 机 器 指令 在 内 存 中 的 地 址 能 够 和 源 代 码 
行 正确 匹配 ， 编 译 器 生成 的 符号 表 必 须 保 持 一 致 性 。 如 果 开 启 高 级 优化 ， 现 代 编 译 右 会 大 
量 重组 代码 (比如 ， 循 环 的 融合 与 拆 分 、 代 码 行 的 重新 排列 以 及 变量 的 优化 消除 等 )。 所 以 ， 
实际 执行 的 代码 可 能 和 原始 代码 差异 很 大 。 更 进一步 讲 ， 由 于 现代 处 理 带 的 流水 线 架 构 ， 查 
看 特定 源 代码 甚至 机 器 指令 在 特定 时 刻 的 状态 是 不 可 能 的 。 然 而 ,采用 基于 循环 的 方法 ( 取 
样 自 各 个 循环 体 ) 查看 基于 代码 行 的 剖析 数据 还 是 相对 安全 的 。 如 果 对 剖析 信息 有 疑问 ， 可 
对 代码 进行 基于 低级 别 优化 的 重新 编译 (禁用 内 联 )， 这 样 可 能 会 提供 更 加 有 意义 的 信息 。 

上 述 基 于 代码 行 的 剖析 数据 可 非常 方便 地 放 人 表单 中 ， 以 确定 程序 热点 。 如 果 某 一 
行 代码 产生 了 较 多 的 采样 ， 所 有 样本 的 累积 总 和 会 在 该 行 号 上 产生 一 个 陡峭 的 斜坡 (如 
图 2-1 所 示 ) 。 





1000 — 1300 2000 E 
源 代码 行 号 

图 2-1 抽样 直方 图 : 横 坐 标 为 源 代码 行 号 ; 纵 坐 标 为 抽样 次 数 ; 虚线 为 累积 抽样 总 和 。 程 序 

热点 《〈 占 总 运行 时 间 的 50%) 位 于 main 函数 (大 约 有 超过 1700 行 代 码 ) 的 第 1000 行 


代码 左右 


2.1.2 硬件 性 能 计数 器 


确定 热点 (如 根据 时 钟 周 期 ) 是 程序 性 能 剖析 的 第 一 步 。 然 而 ， 要 确定 程序 性 能 低 的 原 
因 或 者 确定 限制 程序 性 能 的 资源 ， 仅 有 时 钟 周期 信息 是 远 远 不 够 的 。 幸 运 的 是 ， 现 代 处 理 器 
都 采用 了 少量 性 能 计数 器 (通常 远 小 于 10 )。 性 能 计数 器 是 一 种 专用 片上 寄存 器 ， 当 特定 事 
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件 发 生 时 ， 其 值 会 依次 递增 。 在 它 可 以 监控 的 几 百 个 事件 中 ， 下 面 几 个 信息 是 对 程序 性 能 剂 
析 最 有 用 的 : 
口 总 线 事务 (PP cache 行 数据 传输 ) 次 数 。 一 般 情况 下 ， 会 用 “ cache 未 命中 ”来 蔡 
代 总 线 事 务 。 然 而 ， 由 于 预 取 机 制 (硬件 或 者 软件 实现 ) 会 干扰 cache 命中 率 的 统 
it. 使用“ 总线 事务 次 数 ” 统 计 内 存 总 线 传输 的 数据 量 是 比较 稳妥 的 方式 。 如 果 处 
理 带 实际 使 用 的 访 存 带宽 接近 理论 峰值 (更 高 或 者 接近 STREAM ( 访 存 带宽 标准 测 
试 集 ) [W119,134] 能 达到 的 访 存 带宽 ， 具体 见 3.1 节 )， 再 继续 优化 访 存 带宽 利用 
率 对 性 能 提升 就 没有 意义 了 。 此 外 ,“ 总 线 事务 次 数 ” 还 可 用 于 验证 一 些 理论 模型 
(比如 一 个 为 应 用 程序 评估 数据 传输 量 的 模型 ) 的 正确 性 (3.1 节 对 这 个 模型 进行 了 
详细 讨论 )。 

口 访 存 次 数 。 结 合 总 线 事 务 次 数 可 指导 cache 行 的 效 利 用 。 例 如 ， 如 果 从 一 个 cache 行 

中 加 载 或 者 存储 的 DP 数据 小 于 DP 字 中 cache 行 的 大 小 ， 说 明 这 是 一 个 非 连续 访 存 。 
非 连续 访 存 一 般 会 造成 程序 性 能 的 降低 。 然 而 ， 我 们 必须 要 对 数据 的 使 用 方式 非常 
清楚 。 例 如 ， 由 于 某 些 原因 ， 处 理 器 流水 线 在 绝 大 部 分 时 间 内 阻塞 或 寄存 器 数据 进 
行 了 大 量 算术 运算 ， 非 连续 访 存 可 能 就 不 是 应 用 程序 的 性 能 瓶颈 。 

口 浮 点 数 运算 次 数 。 这 个 基准 的 重要 性 经 常 被 高 佑 (正如 第 3 章 讨论 ， 科 学 应 用 程序 
的 主要 性 能 限制 因素 是 数据 传输 )。 如 果 每 个 CPU 时 钟 周 期 所 能 进行 的 浮 点 数 运算 
次 数 接近 理论 峰值 (给 定 CPU 的 峰值 性 能 ， 或 者 当 乘 法 和 加 法 操作 不 对 称 时 相对 较 
低 的 性 能 ) 时 ， 基 本 的 代码 优化 方法 不 太 可 能 提升 程序 性 能 ， 这 时 可 能 要 考虑 算法 
上 的 改进 。 

口 分 支 预测 失误 。 当 CPU 对 条 件 分 支 预测 错误 时 ， 该 计数 器 递增 。 分 支 预测 的 时 间 消 
耗 与 具体 的 硬件 架构 相关 ， 大 约 是 数 十 个 时 钟 周期 ( 见 2.3.2 节 的 讨论 )。 科 学 应 用 程 
序 往往 是 基于 循环 的 ， 因 此 分 支 会 被 很 好 地 预测 。 然 而 , “指针 链接 ”和 计算 性 分 支 
增加 了 预测 失误 的 可 能 性 。 

O 流水 线 阻 塞 。 由 于 处 理 器 流水 线 ( 见 1.2.3 节 ) 不 同 阶段 执行 的 操作 间 存 在 相互 依 

赖 ， 导 致 流水 线 某 一 阶段 处 于 等 待 空 闪 状态 ， 称 为 流水 线 阻 塞 ， 或 者 流水 线 气泡 。 
通常 情况 下 ， 流 水 线 阻塞 是 不 能 避免 的 。 例 如 ， 当 访 存 带宽 是 程序 性 能 的 限制 因素 
时 ， 算 术 单 元 将 耗费 大 量 的 时 间 等 待 操作 数据 。 当 有 “ 太 多 ”气泡 时 ,确定 优化 方 
法 是 非常 困难 的 。 如 果 没 有 让 具备 执行 条 件 的 指令 首先 执行 的 机 制 ， 单 纯 依 靠 硬 件 
是 无 法 有 效 修正 气泡 现象 的 ， 因 此 阻塞 周期 分 析 在 有 序 架 构 (如 Intel IA64 ) 上 非常 
重要 。 

D 执行 指令 条 数 。 结 合 钟 周期 可 成 为 判断 如 何 有 效 利用 具有 多 执行 单元 的 超标 量 硬件 

染 构 (拥有 多 个 执行 单元 ) 的 准则 。 经 验 表明 ， 即 使 有 设计 良好 的 流水 线 ， 并 且 有 紧 
次 内 循环 代码 ， 编 译 器 生成 代码 的 执行 性 能 也 很 难 达到 每 时 钟 周 期 2 ~ 3 条 指令 。 

使 用 硬件 性 能 计数 器 进行 程序 剖析 的 方法 基本 有 两 种 。 我 们 常 借助 于 工具 快速 了 解 应 用 
程序 的 性 能 属性 。 这 个 工具 不 仅 能 够 检测 全 部 计数 器 信息 ， 而 且 还 可 能 计算 生成 许多 派生 计 
数 右 信息 ， 如 “每 时 钟 周期 指令 数 ” 和 “每 访 存 cache 未 命中 数 ”。 在 这 个 工具 中 运行 某 些 
应 用 程序 可 能 会 产生 类 似 的 输出 (这 些 例子 都 是 在 SGI Altix 系统 上 根据 lipfpm 工具 生成 的 
输出 进行 编译 的 ): 
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i CPU CYCLES. shee cee tes BH]; HE Aw ee ee we Re Se Se Oe ete ete OW ete a da 8721026107 
> Retired: DmStructLonsss se 21036052778 
3 Average number of retired instructions per cycle........ 2.398151 

i Ea ESOS i cot awa es ek we ok ee oe ee eee we SEE 101822 

s Bus Memory TranSactllons....6.. ccc e eese me ot de eee ce a eee 54413 

6 Average MB/s requested by L2..................,...,....， 2.241689 

7 Average Bus Bandwidth (MB/S) os 1.197943 

s Retired. LORS cesses se Hi we iAS iS WIS THISA SREB ETALSS wrweis 694058538 

9 REGLEEU SEOLOS se ¢ a6 Ges HAWG FST TRANSFOR IDES ODED EDV 199529719° 
i Retired FP Operations é ics cae e es asura sas n narini sT HR 7134186664 
了 1225.702566 
2 Full Pipe Bubbles in Main Pipes «occa as ms as ass eosa. ois 3565110974 
3 Percent stall/bubble cycles............,........。.。.。.。.。.。.。 40.642963 


通常 使 用 的 性 能 计数 器 数目 非常 少 (一 般 为 2 一 4 个 )。 如 需 使 用 大 量 计 数 器 (如 上 例 ) 
可 能 需要 运行 应 用 程序 多 次 ,或 者 剖析 工具 本 里 支持 不 同和 矩阵 组 的 多 路 复 用 (如 多 个 不 同 计 
数 器 组 在 一 定时 间 间 隔 内 可 进行 切换 如 100ms)。 后 者 会 引入 一 个 统计 错误 ， 这 个 错误 必须 
密切 关注 (特别 是 涉及 的 计数 非常 小 或 者 应 用 程序 运行 时 间 非 常 短 的 情况 )。 

上 例 中 ， 每 个 时 钟 周期 完成 的 指令 数目 ( 较 多 )、 对 cache 和 主 存 带宽 需求 ( 较 小 )、 已 
完成 的 存 取 指令 数目 与 L2 cache 未 命中 数目 的 关系 ， 都 说 明了 这 个 硬件 已 经 得 到 了 很 好 的 
利用 。 流 水 线 气泡 占 总 CPU 时 钟 周期 的 40%， 如 果 没 有 其 他 参照 ， 很 难说 明 这 个 值 到 底 是 
高 还 是 低 。 为 了 便于 比较 ， 下面 是 运行 在 相同 硬件 架构 上 的 向 量 代码 (采用 较 长 的 向 量 长 度 ) 
的 剖析 结果 : 


i CPU Cyc lesig soso nee ese ste cia ee ees Oe ED EH ORE HERES ES 28526301346 
¢ Retired. Tnost ruct LOA ss © erik tis ee mee wie lel 6 fel lace el © AA wae a eS eo aie 15720706664 
3 Average number of retired instructions per cycle........ 0.551095 
i 605101189 

s Bus Memory Transactions mm 751366092 

6 Average MB/s requested by L2......,..,..,.......,....... 4058.535901 
7 Average Bus Bandwidth (MB/B) 0 ese ess cccccees 5028.015243 
s Reēetiréd RIN a oeae po A We Be a Cae we ee a S eaa Ele aa 3756854692 
9 Retirëd SOLES. i 2472009027 
is Rëtired FE ObSHACIGNS cc seisi se svSewWsw swe We SES SS HETERO ES 4800014764 
i Average MEIORS 6 6.66 iit nres OTC IHLMI WE FRA g Aw WEED Es 252.399428 
2 Poll Pipe Bubbles in Main Pipes i 25550004147 
3 Percent Stall /bubble cycles................、....,.....-... 89.566481 


上 例 的 带宽 需求 〈 较 高 )、 每 个 时 钟 周 期 完成 的 指令 数 ( 较 少 )、 存 取 指 令 数 与 站 2 cache 
未 命中 数 的 关系 ， 都 表明 这 是 一 个 访 存 受 限 应 用 。 与 前 面 的 例子 相 比 ， 阻 塞 指令 所 占 比 例 增 
加 了 一 倍 以 上 。 只 有 基于 多 个 计数 器 、 精 心 设计 的 阻塞 指令 周期 分 析 ， 才 能 够 解释 这 些 气 泡 
产生 的 原因 。 

尽管 提供 了 一 些 重要 信息 ,但 收集 “全 局 "硬件 计数 器 信息 在 很 多 情况 下 还 是 过 于 简单 。 
比如 ， 如 果 将 应 用 程序 的 性 能 剖析 信息 根据 性 能 属性 的 较 大 差异 (如 cache 受 限 与 访 存 受 限 ) 
分 成 许多 子 段 ， 结 合计 数 器 信息 可 能 会 导致 错误 的 结论 。 将 计数 器 的 增长 限制 到 特定 的 代码 
段 ， 可 实现 计数 需 剖 析 文 件 的 分 解 并 获得 更 具体 的 数据 。 最 简单 的 工具 是 一 个 至 少 允 许 控制 
计数 需 的 开启 和 禁用 的 API 库 。 包 含 在 LIK WID[T20,W120] 包 中 的 开源 工具 就 可 以 做 到 这 
一 点 ， 更 重要 的 是 ， 这 个 工具 和 目前 绝 大 多 数 x86 架构 的 处 理 器 兼容 。 

使 用 硬件 性 能 计数 器 的 更 高 级 方式 (OProfile 和 Intel VTune[T21] 等 工具 都 支持 ) 是 将 
采样 机 制 应 用 于 应 用 程序 的 代码 行 或 函数 事件 上 ， 这 和 基于 代码 行 的 程序 剖析 非常 类 似 。 与 
简单 的 定期 获取 指令 指针 或 者 调用 栈 的 快照 不 同 ， 这 个 方法 对 每 个 计数 器 (或 者 更 精确 些 是 
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metric) 定义 了 淤 出 值 。 当 计数 带 增 加 到 这 个 值 时 会 产生 一 个 中 断 ， 并 进行 IP 或 者 调用 栈 采 
Eo MRP RE TT Bia AYRE RI H Re RE ETAT a EE TT TERR, WA ETE 
不 是 基于 整个 程序 而 是 基于 函数 ,其 至 是 基于 代码 行 的 。 然 而 ， 对 硬件 事件 计数 结果 的 正确 
理解 需要 相当 多 的 经 验 。 


2.1.3 手工 代码 插入 


如 果 基 于 编译 颖 的 代码 插入 开销 相对 于 应 用 程序 太 大 ， 或 者 只 想 对 程序 的 部 分 代码 段 进 
行 剖 析 以 获得 相对 简单 的 性 能 属性 视图 ， 手 工 代 码 插 入 是 非常 好 的 方法 。 程 序 员 可 在 程序 中 
插入 计时 函数 如 gettimeofday() ( 见 代码 清单 1-2, wrapper A), BAA BIST EM PAPI 
(T22 ) (如 果 需 要 硬件 计数 器 信息 )。 像 在 2.1.1 和 2.1.2 节 讨 论 的 那样 ， 许 多 剖析 库 都 允许 应 
用 程序 控制 标准 前 析 机 制 的 启动 和 停止 [T20]。 在 C++ 代码 中 ， 如 果 由 于 模板 和 运算 符 重 载 
技术 的 应 用 而 使 程序 剖析 文件 变 得 非常 混乱 ， 这 种 方法 将 非常 有 用 。 

理解 计时 也 数 返回 结果 时 要 非常 小 心 。 当 测试 时 间 和 计时 器 的 最 小 计时 单位 是 同一 数量 
级 (如 用 最 小 的 时 间 间 隔 就 可 以 完成 ) 时 ， 最 容易 发 生 对 计时 函数 返回 结果 的 错误 解释 。 


2.2 优化 常识 


简单 的 代码 修改 经 常会 带 来 性 能 的 显著 提升 。 下 面 的 章节 总 结 了 避免 性 能 缺陷 的 几 个 最 
重要 的 “优化 常识 ”。 这 些 方法 看 似 微 不 足 道 ， 但 许多 科学 应 用 程序 在 应 用 这 些 方法 后 ， 性 
能 都 有 了 显著 提升 。 


2.2.1 DIE 


重新 组 织 代码 以 减少 代码 工作 量 ， 在 很 多 情况 下 可 显著 提升 性 能 。 最 常见 的 例子 是 循环 
检测 一 组 对 象 是 否 具 有 特定 属性 ， 任 一 对 象 具备 该 属性 即 可 : 


ı logical :: FLAG 

2 FLAG = .false. 

3 do i=1,N 

4 if (complex_func(A(i)) < THRESHOLD) then 
5 FLAG = .true. 

6 endif 

7 enddo 


如 果 complex _func() 函数 没有 其 他 作用 ，FLAG 是 唯一 和 循环 外 部 通信 的 变量 。 这 种 
情况 下 ，FLAG 值 一 经 改变 ， 就 立即 退出 循环 可 明显 减少 计算 工作 量 (取决 于 条 件 判断 变 为 
true 的 概率 ): 


1 logical :: FLAG 

2 FLAG = .false. 

3 do i=1,N 

4 if (complex_func(A(i)) < THRESHOLD) then 
5 FLAG = .true. 
6 exit 

7 endif 

8 enddo 


2.2.2 ”避免 耗 时 运算 


算法 的 实现 通常 采用 “步步为营 ”的 策略 。 首 先 不 做 性 能 方面 (因为 在 进行 性 能 优化 时 ， 
往往 仔 在 更 改 数值 运算 的 风险 ) 的 考虑 ， 将 公式 直接 翻译 成 代码 。 第 二 步 使 用 “便宜 ”运算 
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FE “GR” WA. CARARE “UR” IH “RR” eR) 的 典型 代表 。 记 住 类 
似 x**2.0 的 表达 式 是 不 会 被 编译 器 优化 成 xxx 的 ， 而 指数 (对 数 ) 的 运算 性 能 是 很 低 的 。 避 
免 “ 昂 贵 ” 运 算 的 优化 方法 称 为 强度 消减 (strength reduction)。 除 上 述 简 单 情况 外 ,，“ 强 ” 
运算 有 时 会 关联 一 组 有 限 的 固定 参数 。 下 面 是 一 个 非 平衡 自 旋 系统 仿真 代码 的 例子 : 


ı integer :: iL,iR,iU,i0O,iS,iN 

2 double precision :: edelz,tt 

3° gies ! load spin orientations 
4 edelz = iL+iR+iU+i0+iS+iNn ! loop kernel 

5 BF = 0.5d0* (1.d0+TANH (edelz/tt) ) 


程序 的 最 后 两 行 代 码 包 含 在 一 个 循环 中 ， 并 占用 该 应 用 程序 几乎 全 部 的 运行 时 间 。 整 型 
变量 用 于 存储 自 旋 取向 (向 上 或 者 癌 下 ， 对 应 值 为 1 或 者 -1 )， 所 以 变量 edelz 的 取 值 范围 
为 {6,…,+6}。 在 整个 应 用 程序 中 ，tanh() 函数 即便 用 硬件 实现 也 是 最 耗 时 的 操作 (至 少 几 
十 个 时 钟 周期 )。 根 据 以 上 描述 ， 可 根据 参数 范围 将 该 函数 结果 转 存 在 一 个 数组 中 ,循环 内 
部 完全 消除 对 tanh() 函数 的 调用 。 假 设 tt 为 定 值 ， 那 么 这 个 表格 只 需 创 建 一 次 : 


1 double precision, dimension(-6:6) :: tanh_table 

2 integer :: iL,iR,iU,iO,iS,iN 

3 double precision :: tt 

Sans 

5 do i=-6,6 ! do this once 
6 tanh_table(i) = 0.5d0x (1.d0+TANH (dble (i) /tt) ) 

7 enddo 

o> wisn 

9 BF = tanh table (iL+iR+iU+i0O+iS+iN) ! loop kernel 


这 个 数组 存储 在 访 存 性 能 非常 高 的 LI cache 中 。 因 此 ， 相 对 于 tanhQ 函数 ， 该 数组 的 
查找 时 间 可 以 忽略 不 计 。 由 于 该 数组 尺寸 较 小 且 被 频繁 调用 ， 所 以 整个 计算 过 程 都 会 被 存储 
Æ L1 cache 中 。 


2.2.3 ”缩减 工作 集 


程序 代码 在 计算 过 程 中 或 至 少 在 整体 运行 时 间 中 的 内 存 使 用 量 称 为 该 代码 的 工作 集 。 一 
般 情 况 下 ， 压 缩 工作 集会 提高 cache 命中 率 ， 对 性 能 提升 有 正面 影响 。 如 何 实现 工作 集 压缩 
以 及 是 否 会 带 来 性 能 提升 ， 很 大 程度 上 取决 于 算法 和 它 的 实现 。 上 例 中 ， 原 始 代 码 使 用 了 4 
字 市 的 整除 存储 自 旋 取向 ， 工 作 集 也 因此 远 远 大 于 所 有 处 理 器 的 L2 cache。 如 果 改 变数 组 定 
X, 使 用 1 字 节 的 整数 来 存储 自 旋 取向 。 工 作 集会 因此 减 小 将 近 4 倍 ， 从 而 接近 cache 大 小 。 

然而 ， 并 不 是 所 有 处 理 器 都 能 有 效 处 理 “ 小 ”数据 类 型 。 如 果 处 理 器 采用 较 大 的 字 长 ， 
单字 节 类 型 数据 通过 移 位 和 标记 操作 抽取 ， 那 么 使 用 单字 节 整 型 数据 的 程序 会 非常 低 效 。 另 
一 方面 ， 如 果 可 以 采用 SIMD 指令 ， 那么 采用 简单 数据 类 型 的 程序 就 会 非常 高 效 (具体 见 
2.3.3 节 )。 


2.3 小 方法 ， 大 改进 


2.3.1 消除 常用 子 表达 式 


消除 常用 子 表达 式 经 常 被 认为 是 编译 器 的 任务 。 其 基本 思想 是 ， 在 构造 复杂 表达 式 之 
前 ,预先 计 算 其 中 被 多 次 调用 的 子 表达 式 ， 并 将 结果 存储 在 临时 变量 中 。 在 循环 代码 优化 
中 ， 这 个 方法 称 为 循环 无 关 代码 移出 : 


1 ! inefficient tmp=s+r«sin (x) 
2 do i=1,N do i=1,N 
3 A(i)=A(i)+s¢r*sin (x) A(i)=A(i)+tmp 


4 enddo enddo 

该 优化 方法 可 节省 大 量 计算 时 间 ， 特 别 是 当 子 表达 式 中 包含 “ 强 ” 操 作 (如 sin(0)) AY. 
尽管 子 表达 式 消除 可 能 会 受 其 他 代码 的 影响 ,编译 器 原则 上 能 够 检测 到 并 进行 有 关 优 化 工 
作 。 然 而 ， 如 果 这 个 操作 还 需要 其 他 关联 规则 ， 那 么 编译 右 常 常 不 会 进行 优化 (2.4.4 节 详 
细 讨 论 了 编译 融 优 化 和 算术 表达 式 重 排序 优化 )。 在 实际 应 用 中 ， 手 工 完 成 这 项 工作 是 非常 
好 的 策略 。 


2.3.2 ”避免 分 支 


“ 紧 ” 循 环 〈 比 如， 循环 体内 部 操作 很 少 ) 常用 的 优化 技术 是 软件 流水 〈 见 1.2.3 )、 循 环 
展开 和 其 他 优化 技术 〈 见 本 节 后 面 内 容 )。 由 于 某 些 原因 编译 器 自动 优化 失败 或 者 优化 不 够 
充分 ， 则 会 明显 影响 程序 性 能 。 如 当 循 环 体内 部 包含 条 件 分 支 时 ， 则 很 容易 发 生 : 


1 do j3=1,N 

2 do i=1,N 

3 if(i.ge.j) then 

4 sign=1.d0 

5 else if(i.lt.j) then 
6 sign=-1.d0 

7 else 

x sign=0.d0 

9 endif 

10 C(j) = C(j) + sign * A(i,j) * B(i) 
11 enddo 

12 enddo 


上 面 的 矩阵 问 量 乘 实 例 ， 使 用 让 表达 式 完 成 了 对 上 三 角 和 矩阵 (sign = 1 )、 下 三 角 和 矩阵 
(sign = 一 1 ) 以 及 对 角 线 元 素 (sign = 0 ) 的 分 别处 理 。 一 旦 处 理 器 遇 到 对 应 的 条 件 分 支 ， 许 
多 分 文 预测 人 逻辑 单元 在 计算 结果 可 用 之 前 就 会 采用 基于 统计 的 方法 对 该 计算 结果 进行 预测 。 
一 旦 预测 被 证 明 是 错误 的 (也 称 为 分 文 预 测 失 误 或 分 文 迷 失 )， 流 水 线 将 重新 回 到 该 分 支 位 
置 ， 这 意味 着 时 钟 周 期 的 浪费 。 此 外 ， 分 支 预测 失败 后 ， 编 译 器 也 就 不 能 继续 进行 循环 展开 
或 者 SIMD 回 量 化 〈 见 下 一 节 内 容 ) 等 后 续 优 化 。 幸 运 的 是 ， 该 循环 藤 套 可 通过 改进 消除 所 
有 if KAA: 


C(3) = C(3j) + A(i;j) * B(i) 


8 C{3) = C(J) = Ati,3) * B(2) 
9 enddo 
10 enddo 


i EE A TAS A AE, ARP SC AA, Ik MRE ES 
优化 潜力 。 具 体 请 参考 第 3 章 对 数据 访 存 操作 优化 的 讨论 。 
2.3.3 ”使 用 SIMD 指令 集 


尽管 向 量 处 理 器 也 使 用 SIMD 指令 ， 微 处 理 器 对 SIMD 指令 的 使 用 也 称 为 “向 量化 ”， 
使 用 SIMD 指令 集 更 类 似 于 现代 向 量化 系统 的 多 轨 机 制 。 一 般 而 言 ， 如 果 一 条 单一 指令 可 
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执行 更 多 的 操作 ,那么 一 个 上 下 文中 “可 向 量化 ”循环 的 性 能 可 以 更 高 。 例 如 ， 尽 可 能 使 用 
“小 ”数据 类 型 。 从 DP 切换 到 SP 可 能 会 导致 两 倍 的 性 能 提升 (具备 SIMD 能 力 的 x86 型 
CPU[V104, V105])， 而 且 还 可 以 将 更 多 的 数据 加 载 到 cache 中 。 

当然 ， 选 择 SIMD 指令 ， 并 不 总 能 带 来 性 能 提升 。 如 果 应 用 程序 性 能 严重 受 限于 受 访 存 
带宽 ， 不 采用 SIMD 技术 可 弥补 这 一 差距 。 使 用 SIMD 指令 ， 只 会 大 大 加 快 寄存 器 到 寄存 器 
操作 的 性 能 ， 但 是 会 大 大 延长 寄存 器 从 内 存 子 系统 中 获取 新 数据 的 时 间 。 

图 1-8 描述 的 一 条 单 精度 加 法 指令 可 用 在 数组 相 加 的 循环 中 : 


1 real, dimension(1:N) :: r, X, y 
2 do i=l, N 

3 rida) = eC) * ytd) 

4 enado 


在 上 例 中 ,循环 的 每 次 迭代 都 是 相互 独立 的 ， 循 环 体 内 部 没有 条 件 分 支 ， 数 据 访 存 也 为 
连续 访 存 操作 。 然 而 ， 使 用 SIMD 指令 需要 对 循环 代码 (如 上 例 中 应 用 的 ) 重新 组 织 : 多 次 
和 迭代 (49 SIMD 寄存 器 大 小 相等 ) 间 不 允许 有 分 文 ， 能 够 像 单 一 的 “ 块 ” 一 样 执行 。 即 使 没 
有 SIMD， 这 也 是 一 个 众所周知 的 优化 方法 一 一 循环 展开 (详细 讨论 见 3.5 节 )。 因 为 循环 的 
迄 代 次 数 一 般 不 是 寄存 右 大 小 的 整数 倍 ， 所 以 余下 的 循环 迭代 还 是 会 标量 执行 。 忽 略 软 件 流 
水 (参见 1.2.3 节 ) 的 伪 代 码 如 下 : 


! vectorized part 
rest = mod (N, 4) 
do i=1,N-rest,4 
load R1 = [x(i),x (i+1) ,x (i+2) ,x(it3) ] 
load R2 = [y(i),y (itl) ,y(it+2),y(it3) ] 
! "packed" addition (4 SP flops) 
R3 = ADD(R1,R2) 
store [r(i),xr(itl) ,r(it+2),r(it+3)] = R3 
enddo 
! remainder loop 
do i=N-rest+1,N 
r(i) = x(i) + y(i) 
13 enddo 


R1, R2, R3 都 是 128 位 的 SIMD 寄存 器 。 理 想 情 况 下 ， 上 述 操作 由 编译 器 自动 实现 。 
实际 优化 中 ， 可 使 用 编译 指导 语句 ， 提 示 可 向 量化 的 代码 (这 些 代码 的 向 量化 必须 是 安全 并 
且 有 益 的 )。 

在 这 个 例子 中 ，SIMD 读 取 和 存储 指令 需要 特别 关注 。 操 作对 齐 数 据 和 非 对 齐 数据 的 一 
些 SIMD 指令 集 是 不 同 的 。 以 x86 (Intel/AMD) 架构 为 例 ， 该 架构 拥有 对 齐 和 非 对 齐 的 “ 打 
包 ”SSE 读 取 和 存储 指令 [V107，054]。 如 果 将 对 齐 的 读 取 和 存储 指令 应 用 于 非 对 齐 内 存 地 
dk (不 是 16 的 倍数 )， 则 会 抛 出 异常 。 如 果 编 译 器 对 应 用 到 向 量化 循环 中 的 数组 的 对 齐 情况 
一 无 所 各， 又 不 能 对 其 影响 和 控制 ， 尽 管 会 带 来 性 能 损失 ， 也 一 定 要 使 用 非 对 齐 的 读 取 和 存 
储 指令 (或 者 使 用 一 系列 的 标量 化 指令 )。 如 果 程 序 员 不 能 肯定 数据 是 对 齐 的 ， 则 强制 编译 
器 假设 最 优 对 齐 是 非常 危险 的 。 在 某 些 架构 上 ， 对 齐 操作 至 关 重 要 ， 需 要 尽 一 切 努 力 保证 读 
取 和 存储 指令 对 齐 到 合适 的 地 址 边界 。 

EAC AEE RRR ( 见 1.2.3 节 ) 是 不 能 被 SIMD 以 此 种 方式 向 量化 的 (然而 也 有 
转机 ， 见 习题 2.2 )。 


1 do i=2,N 
2 A(i)=s*A(i-1) 
3 enddo 
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这 里 ， 编 译 器 将 会 进行 标量 操作 ， 也 就 意味 着 只 使 用 SIMD 寄存 器 的 最 低位 ( x86 
架构 ) 。 

值得 注意 的 是 ， 循 环 向 量化 没有 固定 的 指导 原则 。 一 个 〈 可 能 是 最 弱 的 ) 可 能 的 定义 是 
循环 内 所 有 算术 运算 的 执行 要 充分 利用 SIMD 寄存 器 (完全 利用 SIMD 寄存 器 的 宽度 )。 即 
便 如 此 ， 仍 然 可 以 使 用 标量 读 取 和 存储 指令 ， 编 译 器 也 会 认为 这 样 的 循环 是 回 量 化 的 。 支 持 
SSE 的 x86 处 理 器 ， 其 寄存 器 的 高 64 位 和 低 64 位 可 以 独立 使 用 。 因 此 ， 上 述 循环 的 向 量化 
加 法 可 看 作为 双 精 度 加 法 : 


ı rest = mod (N, 2) 

2 do i=l,N-rest,2 

3 ! scalar loads 

4 load R1.low = x(i) 

5 load Rl.high = x(i+1) 

6 load R2.low = y(i) 

7 load R2.high = y(i+1) 

8 ! "packed" addition (2 DP flops) 
9 R3 = ADD(R1,R2) 

10 ! scalar stores 

11 store r(i) = R3.low 

12 store r(i+1) = R3.high 

13 enddo 

4 ! remainder "loop" 

6 if(rest.eq.1) r(N) = x(N) + y(N) 


上 例 中 ， 如 果 操 作 数 驻 留 在 cache 中 ， 该 版 本 并 不 能 提供 最 佳 性 能 。 尽 管 算 术 运 算 (第 
947) 都 是 SIMD 并 行 操作 ， 而 读 取 和 存储 却 都 是 标量 运算 。 由 于 缺乏 完整 的 编译 器 报告 ， 
因此 确定 这 样 一 个 缺陷 的 唯一 方法 是 手动 检查 生成 的 汇编 代码 。 即 使 添加 命令 行 选 项 或 者 源 
代码 指导 语句 ， 编 译 堪 还 是 不 能 有 效 完 成 循环 的 向 量化 。 那 么 ， 在 使 用 汇编 语言 之 前 ， 一 个 
“不 得 已 而 为 之 ”的 方法 是 使 用 编译 器 内 部 田 数 (compiler intrinsics ) 。 内 部 函数 和 汇编 指令 
非常 相似 ， 两 者 可 被 编译 右 进 行 1:1 转换 。 由 于 编译 器 为 内 部 函数 提供 了 可 映射 到 SIMD 操 
作 数 的 特殊 数据 类 型 ， 所 以 使 用 内 部 郴 数 可 使 用 户 从 追踪 每 个 寄存 器 使 用 情况 的 繁重 工作 中 
解脱 出 来 。 内 部 函数 不 仅 对 回 量 化 非常 有 用 ， 而 且 在 高 级 语言 设计 不 能 很 好 地 映射 到 CPU 
某 些 特性 的 情况 下 ， 也 非常 有 用 。 然 而 不 幸 的 是 ， 即 使 在 同一 个 硬件 架构 上 ， 编 译 器 间 的 内 
部 函数 也 互 不 兼容 [V112]。 

最 后 ， 必 须 强 调 的 是 ， 相 对 于 真正 的 回 量 化 处 理 器 ，RISC 系统 并 不 总 能 从 向 量化 中 受 
益 。 如 果 一 个 访 存 受 限 程序 可 使 用 寄存 器 或 cache 进行 大 量 数据 重用 ( 见 第 3 章 例子 )， 那 么 
数据 重用 优化 的 潜在 性 能 提升 是 非常 大 的 ， 甚 至 可 以 放弃 向 量化 优化 。 


2.4 编译 病 作 用 


通过 利用 编译 贷 目 动 优 化 ， 高 性 能 计算 程序 可 以 获得 不 同 程度 的 性 能 改进 。 几 乎 每 个 现 
代 编 译 器 都 可 以 在 命令 行 上 设置 编译 选项 ， 以 便 对 编译 器 优化 目标 程序 进行 细 粒 度 控制 。 有 
些 情况 下 可 以 简单 地 通过 更 换 一 个 编译 器 来 检查 程序 是 否 还 存在 性 能 提升 空间 。 编 译 器 需要 
进行 复杂 的 工作 以 将 高 级 代码 编写 成 的 源 程序 编译 为 机 器 代码 ， 同 时 要 顾及 到 处 理 器 内 部 资 
源 。 本 草 和 下 一 章 讨论 的 一 些 优化 方法 可 以 在 某 些 简单 情况 下 被 编译 器 实现 ,但 是 涉及 复杂 
的 情况 时 就 无 法 用 编译 器 自动 完成 优化 工作 。 始 终 要 注意 的 一 点 是 编译 器 可 能 足够 聪明 但 是 
又 可 能 非常 三 条 。 在 讨论 编译 需 能 力 时 ， 一 条 常用 评价 是 “编译 器 应 该 能 够 识别 ”， 这 经 常 
是 一 个 错误 的 假设 。 
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参考 文献 [C91] 概述 了 几 种 当前 常用 C/C++ 编译 器 的 优化 能 力 ， 并 介绍 了 一 些 手工 优 
化 的 技巧 和 指导 。 


2.4.1 通用 优化 选项 


每 种 编译 器 都 提供 了 一 组 标准 优化 选项 (-00，-01，… )， 每 个 级 别 的 优化 都 包括 哪些 
优化 方法 并 没有 固定 标准 ， 需 要 参考 相关 手册 。 但 是 ， 所 有 编译 需 在 -00 选项 级 别 禁止 大 
多 数 优 化 ， 因 此 这 和 是 调试 和 分 析 程 序 的 正确 方法 ， 在 更 高 级 别 的 优化 层次 上 ， 编 译 船 进行 
检测 和 消除 元 余 变量 、 重 排 算术 表达 式 等 优化 ， 因 此 调试 器 不 能 在 代码 和 数据 间 提 供 一 臻 
的 视图 。 

需要 注意 的 是 ， 某 些 问题 只 在 高 级 优化 层次 上 才 出 现 。 这 可 能 是 编译 器 的 错误 或 缺 
陷 ， 也 可 能 是 典型 的 错误 ， 例 如 数组 访问 越界 〈 读 写 索 引 超过 了 数组 的 界限 )， 在 -00 层次 
和 -03 层次 ， 数 据 被 按照 不 同 的 方式 组 织 ， 因 此 可 能 只 在 某 个 优化 层次 出 错 。 这 种 错误 很 
难 被 定位 ， 有 些 情 况 下 由 于 与 优化 融 的 冲突 ， 其 至 最 常用 的 printf 函数 也 不 能 帮助 定位 该 
类 错误 。 


2.4.2 WK 


内 联通 过 插 和 人 被 调用 函数 或 子 程序 的 全 部 代码 来 减少 程序 运行 时 的 调用 开销 。 例 如 每 个 
被 调用 函数 都 会 使 用 寄存 器 或 者 栈 (具体 要 以 来 参数 数量 和 调用 方式 决定 ) 中 资源 来 存储 和 
传递 函数 参数 ， 内 联 确实 移 除 了 将 参数 压 人 栈 中 的 必要 ， 并 且 使 编译 器 可 以 在 它 认 为 需要 
的 时 候 使 用 寄存 器 (而 不 是 根据 某 些 调用 约定 )， 从 而 减轻 了 寄存 器 压力 ， 寄 存 器 压力 是 指 
CPU 没有 足够 的 寄存 器 存储 复杂 计算 或 者 循环 体内 的 所 有 操作 数 (更 多 介绍 见 第 2.4.5 节 )。 
最 后 ， 内 联 使 得 编译 器 可 见 的 代码 段 增 大 并 可 以 利用 更 多 的 在 非 内 联 情况 下 不 可 用 的 优化 手 
段 。 程 序 员 不 应 该 依赖 编译 器 优化 内 联 代码 ， 在 性 能 关键 段 (例如 循环 体内 )， 编 译 器 看 不 
见 “ 真 正 的 ”代码 反而 无 法 优化 。 

函数 调用 是 否 会 影响 性 能 依赖 于 调用 次 数 ， 通 常情 况 下 ， 内 联 频 繁 调用 的 小 程序 将 会 获 
得 最 大 的 性 能 加 速 。 在 C++ 代码 中 ， 内 联 是 提高 性 能 的 基本 方法 ， 因 为 对 简单 数据 类 型 的 
重 载 操作 将 会 变 为 较 小 的 函数 ， 并 且 当 内 联 函 数 返 回 一 个 对 象 时 ， 临 时 复制 可 以 被 省 略 (更 
多 C++ 优化 细节 见 2.5 节 )。 

编译 需 通 党 有 不 同 的 编译 选项 来 控制 内 联 的 自动 优化 程度 ， 例 如 ， 在 什么 程度 上 ( 即 
代码 行 数量 ) 一 个 子 程序 可 以 作为 一 个 被 内 联 的 候选 对 象 等 。 注 意 COO 和 C++ inline 关键 
字 只 是 对 编译 需 的 一 个 提示 ， 应 该 检查 编译 器 日 志 (如 果 可 用 ， 见 2.4.6 节 ) 判断 函数 是 否 
真正 被 内 联 。 

相反 ， 在 多 处 内 联 一 个 函数 可 能 会 增 大 目标 代码 而 导致 过 量 使 用 工 1 指令 高 速 缓存 ， 例 
如 如 果 循 环 体内 的 指令 不 能 存储 在 L1 指令 高 速 缓存 中 ， 将 会 与 数据 传输 一 起 竞争 更 高 层次 
的 高 速 缓存 或 者 主 内 存 ， 因 此 读 取 指令 延迟 就 会 增 大 。 所 以 在 设置 内 联 标识 时 需要 考虑 正 反 
两 个 方面 的 效用 。 


2.4.3 别名 


通过 程序 语言 规则 和 对 源 代 码 的 理解 ， 编 译 器 需要 提出 确切 的 假设 来 限制 自身 产生 优化 
机 需 代 码 的 能 力 。 典 型 的 例子 是 在 C (以 及 C++) 语言 中 利用 指针 (或 引用 ) 形式 参数 : 


1 void scale_shift (double *a, double *b, double s, int n) { 
2 for(int i=l; i<n; ++i) 

3 afi] = s«*b[i=-1]; 
4 


} 
假设 被 指针 a Al b KIA A EKA, E [aa+n-1] 与 [b,b+n-1] ABB, MAIR 
环 体 中 的 读 取 和 存储 操作 就 可 以 按照 任意 顺序 重 排 编译 器 会 应 用 它 认 为 合适 的 任何 软件 流 
水 方式 或 者 展开 循环 并 将 读 取 和 存储 打包 在 一 个 程序 块 中 ， 就 像 下 面 伪 码 (忽略 其 余 循环 ): 


1 loop: 
2 load R1 = b(itl) 
3 load R2 = b(i+2) 
4 R1 = MULT (s,R1) 

5 R2 = MULT (s, R2) 

6 store a(i) = Rl 

7 store a(i+1) = R2 
8 i = i + 2 

9 branch -> loop 


此 时 循环 可 以 简单 地 进行 SIMD -向 量化 优化 ( 见 2.3.3 节 )。 

然而 ，C 和 C++ 标准 允许 指针 的 别名 ， 所 以 在 优化 时 不 能 假设 两 个 指针 指向 的 区 域 不 
EA, An, wR a==b， 该 循环 变 成 了 1.2.3 节 的 “ 真 依赖 ”的 Fortran 实例 ， 读 取 和 存储 
的 执行 顺序 必须 与 程序 中 声明 的 一 致 : 


loop: 
load R1 = b(itl) 
Rl = MULT (s,R1) 
store a(i) = R1 
load R2 = b(it2) 
R2 = MULT (s, R2) 
store a(i+1) = R2 
i=i+2 
branch -> loop 


编译 右 在 缺少 更 多 信息 的 情况 下 必须 按照 这 种 方式 生成 代码 ，SIMD [el ete th tha 
被 排除 ， 处 理 器 硬件 在 某 些 限制 条 件 下 允许 读 取 和 存储 的 重 排 [V104,V105], 但 是 必须 保证 
程序 语义 。 

在 Fortran 标准 中 禁止 参数 别名 ， 这 也 是 Fortran 程序 比 相同 的 C 程序 快 的 主要 原因 
之 一 。 所 有 的 C/C++ 编译 器 都 有 控制 别名 程度 的 命令 行 选项 (例如 Intel 编译 器 中 的 -fno- 
fnalias 选项 和 GCC 中 的 -fargument-noalias， 表 明 任何 因数 的 两 个 指针 实 参 都 不 指 回 同一 区 
域 )。 如 果 编 译 器 被 告知 没有 参数 别名 ， 那 么 原则 上 就 可 以 进行 类 似 Fortran 代码 中 的 优化 。 
但 是 应 该 注意 ， 如 果 对 优化 过 后 的 程序 使 用 参数 别名 将 会 产生 错误 结果 。 


2.4.4 计算 准确 性 


2.3.1 节 已 经 提 到 ， 当 要 求 满足 结合 律 时 ， 编 译 侨 有 时 禁止 重 排 算术 表达 式 ， 除 非 极 高 
层次 的 优化 开关 被 打开 。 原 因 在 于 浮 点 运算 不 满足 结合 律 [135] : 如 果 a、b 和 c 是 有 限 精度 
的 浮 点 数 ， 则 (a+b)+c 一 般 不 等 于 a+(b+c)。 如 果 必 须 保证 优化 前 代码 的 正确 性 ， 就 不 能 使 
用 结合 律 规 则 ， 因 此 应 由 程序 员 确 定 是 否 可 以 手工 重组 算术 表达 式 。 现 代 编 译 器 都 有 相关 编 
译 选项 用 来 控制 算术 表达 式 的 重组 ， 即 使 是 在 高 层次 的 优化 开关 被 打开 的 情况 下 。 

同时 要 注意 非 正规 数 ， 即 比 用 非 零 最 高 有 效 位 表示 的 最 小 值 还 小 的 浮 点 数 ， 会 极 大 地 影 
啊 计 算 性 能 ， 如 果 可 能 并 且 轻 微 的 正确 性 损失 是 可 接受 的 ， 那 么 这 些 数 应 该 在 硬件 计算 中 被 
设 为 去。 
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24.5 寄存 器 优化 


这 是 编译 器 优化 (考虑 使 用 寄存 器 ) 中 最 关键 也 是 最 复杂 的 任务 之 一 ， 编 译 器 试图 将 寄 
存 器 分 配给 使 用 最 频繁 的 操作 数 并 将 这 些 操作 数 尽 可 能 长 的 保留 在 寄存 器 中 (如 果 这 样 做 安 
全 )。 例 如 ， 如 果 一 个 变量 的 地 址 被 访问 ， 该 变量 的 值 很 可 能 被 改变 (通过 地 址 操作 由 程序 
其 他 部 分 改变 )， 这 种 情况 下 编译 器 要 决定 是 否 将 该 变量 写 回 内 存 中 。 

Pye (UL 2.4.2 节 ) 可 以 减轻 寄存 器 优化 负担 ， 因 为 编译 器 可 以 将 本 应 该 在 果 数 调用 前 
写 人 人 内存 并 随后 再 读 出 的 变量 保存 在 寄存 器 中 。 相 反 ， 优 化 拥有 大 量变 量 和 算术 表达 式 的 循 
环 体 (可 能 出 现在 内 联 优 化 后 ) 对 于 编译 器 来 说 非常 困难 ， 因 为 编译 器 要 保持 的 操作 数 数 目 
过 大 而 不 能 在 一 次 迭代 中 同时 存储 所 有 操作 数 。 前 面 提 到 过 ， 处 理 器 中 整数 寄存 器 和 浮 点 数 
寄存 器 的 数量 通常 是 有 限 的 。 目 前 典型 的 数目 为 8 ~ 128， 如 果 寄 存 器 数量 不 够 ， 将 会 带 来 
寄存 器 溢出 ， 即 将 寄存 器 变量 写 回 内 存 以 供 后 续 使 用 。 如 果 程 序 的 性 能 瓶颈 是 算术 操作 ， 那 
么 寄存 器 溢出 将 会 极 大 地 降低 性 能 。 这 种 情况 下 可 以 划分 一 个 大 循环 为 多 个 循环 来 减轻 寄存 
EHEJ o 

— Je Ah FH Ai A 45 fi 4 Fo ARAA, WAN Intel Itanium2 处 理 器 具有 便 件 性 
能 计数 器 可 以 直接 检测 存储 器 溢出 。 


2.4.6 利用 编译 日 志 


前 面 几 节 指 出 编译 器 在 编写 高 效 程序 中 的 关键 作用 。 可 以 简单 地 操作 以 阻止 编译 器 获得 
重要 信息 从 而 限制 优化 的 级 别 和 种 类 。 为 了 更 好 地 利用 编译 需 的 智能 ， 需 要 编译 器 允许 产生 
注释 源 代码 表 或 者 编译 日 志 来 表示 本 次 编译 过 程 都 使 用 了 哪些 优化 方法 。 代 码 清单 2-1 展示 
了 一 个 MIPS R14000 处 理 融 上 (已 过 时 ) 编译 注释 的 例子 ， 即 代码 清单 1-1 中 的 标准 三 元 组 
回 量 程序 。 该 处 理 器 是 一 个 四 路 超标 量 处 理 器 ， 在 一 个 时 钟 周期 内 可 以 同时 执行 一 个 读 取 或 
存储 操作 ， 两 个 整数 操作 ， 一 个 浮 点 加 和 一 个 浮 点 乘 操作 〈 后 两 个 操作 通过 一 条 融合 的 乘 - 
加 指令 “madd” 实 现 )。 假 设 所 有 的 数据 都 存储 在 最 高 层 的 高 速 缓存 中 ， 编 译 器 可 以 计算 程 
序 一 次 循环 迭代 所 需 的 最 小 计算 周期 数 (第 3 行 )。4 ~ 9 行 展 示 了 处 理 器 峰值 ， 即 每 类 指令 
的 最 大 吞吐 量 。 
代码 清单 2-1 流水 化 三 元 组 软件 的 编译 日 表 。 其 中 “峰值 ”( peak ) 指 该 体系 结构 (MIPS R14000 ) 


上 各 种 操作 类 型 的 最 大 执行 速率 
i #<swps> 16383 estimated iterations before pipelining 
2 #<swps> 4 unrollings before pipelining 
3 ##<swps> 20 cycles per 4 iterations 
4  #<swps> 8 flops ( 20% of peak) (madds count as 2) 
5 #<swps> 4 flops ( 10% of peak) (madds count as 1) 
6 #<swps> 4 madds ( 20% of peak) 
7 #<swps> 16 mem refs ( 80% of peak) 
s #<swps> 5 integer ops ( 12% of peak) 
9 #<Swps> 25 instructions ( 31% of peak) 
10 #<Swps> 2 short trip threshold 
11 #<swps> 13 integer registers used. 
Il2 #<swps> 17 float registers used. 


除 此 之 外 ， 寄 存 器 利用 和 寄存 器 溢出 (第 11 行 和 第 12 行 )， 循 环 展开 因子 和 软件 流水 
因子 (第 2 行 ， 见 1.2.3 节 和 3.5 节 )、SIMD 指令 的 使 用 (I 2.3.3 节 ) 以 及 循环 次 数 的 编译 
BE GB 1 行 ) 都 在 表 中 展示 ， 可 以 用 来 判断 生成 的 机 器 代码 的 质量 。 然 而 ， 并 不 是 所 有 
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编译 器 都 有 产生 如 此 丰富 的 代码 标注 特性 的 能 力 ， 剩 下 的 工作 需要 程序 员 完 成 。 

也 有 人 工 检 查 汇 编 代 码 的 编译 选项 。 所 有 编译 器 提供 命令 行 选项 以 输出 汇编 而 不 是 可 
连接 文件 。 然 而 ， 将 该 汇编 文件 与 源 代 码 进行 对 应 并 分 析 指 令 序 列 的 效率 需要 很 多 经 验 
[055]。 毕 竞 这 是 握 弃 编写 汇编 语言 代码 的 原因 。 


2.5 C++ 优化 


目前 ， 有 大 量 关 于 如 何 编 写 高 效 C++ 代码 的 文献 [C92,C93, C94, C95]。 我 们 的 目标 不 
是 取代 它们 。 所 以 我 们 特意 忽略 了 引用 计数 、 写 时 复制 、 智 能 指针 等 关键 技术 。 本 节 以 循环 
代码 为 例 ， 根 据 我 们 的 经 验 指 出 C++ 编程 中 经 常 存在 的 性 能 错误 和 误解 。 

C++ 编程 存在 着 一 个 根深 蒂 固 的 假象 : 编译 器 应 该 能 够 识别 高 级 C++ 程序 包含 的 所 有 
抽象 和 代码 混淆 。 首 先 ，C++ 是 一 门 支持 复杂 管理 的 高 级 编程 语言 ， 且 自身 特征 明显 (如 运 
算 符 重 载 、 面 向 对 象 、 自 动 构建 /销毁 等 )。 然 而 ， 这 些 特征 绝 大 多 数 都 不 适合 编写 高 效 的 
低层 次 代码 。 


2.5.1 临时 变量 


C++ 具有 一 个 “ 隐 式 ”的 编程 风格 : 目 动机 制 为 程序 员 隐 藏 了 C++ 编程 的 复杂 性 。 然 
而 ， 在 表达 式 含 有 运算 符 重 载 链 时 ， 经 常会 出 现 一 个 问题 。 例 如 ， 假 设 有 一 个 表示 三 维 向 量 
的 类 vec3d4， 该 类 实现 了 算术 运算 符 重 载 以 支持 更 有 表现 力 的 编码 : 


class vec3d { 


] 

2 double x,y,z; 

3 friend vec3d operator* (double, const vec3dé) ; 
4 public: 

5 vec3d (double _x=0.0, double _y=0.0, double _z=0.0) : // 4 ctors 
6 x(_x),y(_y),z(_z) 1} 

7 vec3d (const vec3d &other); 

8 vec3d operator= (const vec3d &o0ther); 

9 vec3d operator+(const vec3d gother) 1 

10 vec3d tmp; 

tmp.x = x + other.x; 

12 tmp.y = y + other.y; 

13 tmp.z = z + other.z; 

14 } 

15 vec3d operators (const vec3d &other); 


16 
7 h}; 

18 

i9 wec3d operators (double s, const vec3dé v) { 
20 vec3d tmp(S*v.x,S*v,y,S*v.Z)j; 

2} 


这 里 我 们 只 给 出 了 vect3d::operatort+ 和 友 元 函数 vect3d::operator*( 与 一 个 标量 相 乘 ) 的 
实现 。 其 他 有 用 函数 都 以 类 似 的 方式 定义 。 注 意 这 里 只 给 出 了 复制 构造 函数 和 赋值 运算 符 的 
靖 数 声明 ， 这 两 个 函数 都 是 隐 式 定义 的 。 因 为 对 于 这 个 类 来 说 ， 默 认 的 复制 和 赋值 操作 已 经 
足够 了 。 

下 面 代 码 段 作为 一 个 启发 式 的 例子 ， 说 明了 当 类 被 调用 时 ， 背 后 究竟 发 生 了 什么 : 


1 vec3sd a,b(2,2),¢ (3); 
2 double x=1.0,y=2.0; 
3 

4 a = x*b + yc; 
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在 这 个 实例 中 ， 会 按 顺 序 逐 步 发 生 如 下 操作 : 

1 ) 调用 构造 函数 实例 化 a、b、c、d 对 象 (根据 参数 调用 相应 的 构造 浮 数 )。 

2) 调用 operator*(x, b) KXU 

3) 调用 构造 函数 初始 化 operator*(double s, const vec3d& v) 中 的 tmp 变量 (这 里 ,我们 
没有 使 用 默认 构造 隐 数 ， 而 是 选择 了 更 加 高 效 的 接受 三 个 参数 的 构造 限 数 )。 

4) AW E A% operator*(double, const vec3d&) 1% FIAT, tmp 变量 会 被 销毁 。 所 以 
vect3d 的 复制 构造 咀 数 被 调用 ， 以 创建 一 个 临时 变量 存储 tmp 结果 ， 并 将 其 作为 “加 ”运算 
的 第 一 个 参数 。 

5 ) 调用 operator*(y, c)。 

6 ) 调用 构造 咀 数 初始 化 operator*(double s, const vec3d& v) 中 的 tmp 变量 。 

7) 因为 图 数 operator*(double, const vec3d&) 返回 时 ，tmp 变量 会 被 销毁 。 所 以 vect3d 
的 复制 构造 函数 被 调用 ， 以 创建 一 个 临时 变量 存储 tmp 结果 ， 并 将 其 作为 “加 ”运算 的 第 二 
个 参数 。 

8 ) 第 一 个 临时 对 象 调 用 vec3d::operator+(const vec3d&) 函数 ， 第 二 个 临时 对 象 作为 其 参数 。 

9 ) 调用 默认 构造 函数 ,初始化 vec3d::operator+ 函数 中 的 tmp 对 象 。 

10 ) 调用 vec3d 的 复制 构造 图 数 ， 完 成 运算 结果 的 临时 拷贝 操作 。 

11 ) 调用 vect3d 的 赋值 运算 符 ， 临 时 拷贝 作为 其 参数 。 

尽管 编译 需 可 能 会 使 用 所 谓 的 返回 值 优化 消除 本 地 变量 tmp[C92]， 而 直接 使 用 隐 式 临 
时 变量 而 不 是 tmp。 然 而 ， 完 成 一 个 看 起 来 如 此 简单 的 表达 式 所 要 执行 的 代码 数量 是 如 此 的 

杂 (使 用 调试 工具 可 查看 相关 详细 信息 )。 对 此 ， 一 个 直接 的 优化 策略 是 使 用 复合 计算 或 
赋值 运算 符 〈 以 牺牲 可 读 性 为 代价 )， 如 +=: 


1 a = yc; 
2 a += x«b; 


这 里 仍然 需要 两 个 临时 变量 将 operator*(double, const vec3d&) Pk AX AY Zi FE IK E Bl] E K 
数 。 但 是 它们 直接 被 赋值 运算 符 和 vec3d::operator+= 应 用 ， 这 样 就 不 需要 第 三 个 临时 变量 。 
该 优点 在 较 长 操作 和 链 中 体现 得 更 加 明显 。 

然而 ， 即 使 处 理 临 时 变量 (比如 ,调用 复制 构造 函数 ) 消耗 了 大 量 的 计算 时 间 ， 标 准 函 
数 谢 析 文件 〈 见 2.1.1 WAR) 也 不 一 定 能 将 此 清楚 显示 。C++ 编译 器 非常 擅长 函数 内 联 ， 
由 此 会 引发 许多 “神奇 ”的 事情 : 比如 一 个 包含 复杂 表达 式 函 数 的 独立 运行 时 间 。 在 这 种 情 
况 下 ， 蔡 用 顶 数 内 联 功能 (虽然 一 般 情 况 下 不 支持 这 么 做 ) 可 能 会 得 到 更 多 的 信息 。 然 而 这 
样 会 严重 干扰 剖析 结果 。 

尽管 会 积极 使 用 内 联 功能 ， 编 译 器 也 不 太 可 能 生成 “最 优 ” 人 代码。 其 生成 的 代码 大 致 上 
是 这 样 的 : 


1 a.x 
2 a.y 
3 a.z 


表达 式 模板 (expression template) [C96,C97] 是 一 种 先进 的 编程 技术 ， 应 该 可 以 解决 很 
多 临时 变量 引发 的 性 能 问题 。 实 际 上 ， 通 过 高 级 表达 式 它 也 会 生成 这 样 的 代码 。 

应 该 明确 的 是 ，C++ 内 联 功 能 不 是 为 了 生成 最 优 代码 ， 而 是 要 弥补 因 语 言 规 范 导致 的 最 
严重 的 性 能 损失 。 受 内 存 带 宽 甚至 cache 带宽 或 者 算术 吞吐 量 限制 的 循环 代码 ， 最 好 用 C 或 
者 Fortran 编写 (2.5.3 节 将 进行 详细 讨论 )。 


x*b.x + YxC.X; 
XD Yy + yre.y; 
xX*b.Z + yrCo.Z; 


2 


25.2 ”动态 内 存 管 理 


C++ 代码 中 另 一 个 常见 的 性 能 瓶颈 是 频繁 的 内 存 分 配 和 释放 。 上 节 讨 论 的 vec3d 类 ， 由 
于 没有 涉及 动态 内 存 ， 所 以 不 存在 大 量 内 存 分 配 (释放 ) 的 问题 。 如 果 我 们 选择 一 个 类 似 于 
vec3d 但 所 占 内 存 空 间 可 变 的 类 ， 其 构造 水 数 和 析 构 图 数 会 分 别 调用 malloc() 和 free() PAR. 
因此 ， 临 时 变量 对 性 能 的 影响 会 更 加 严重 。 而 标准 库 函 数 并 没 进行 最 佳 性 能 优化 ， 因 此 会 严 
重 损害 程序 的 整体 性 能 。 这 就 是 C++ 程序 员 竭 尽 全 力 试图 减 小 内 存 分 配 和 释放 对 性 能 影响 
的 原因 。 

上 节 讨 论 的 是 避免 临时 变量 而 采取 的 其 中 一 个 关键 措施 。 除 此 之 外 ， 还 有 男 外 两 个 有 效 
策略 : 延 人 返 构 造 和 静态 构造 。 这 两 个 策略 看 起 来 是 对 立 的 ,但 它们 都 是 有 用 的 策略 。 

1. 延迟 构造 

将 C++ 作为 “第 二 语言 ”的 C 程序 员 一 般 会 在 函数 的 开始 就 声明 所 有 变量 ， 而 不 是 需 
要 时 才 声 明 。 前 者 是 C 语言 所 需 的 ， 只 要 使 用 的 是 基本 数据 类 型 就 不 存在 性 能 问题 。 然 而 ， 
要 尽量 避免 “昂贵 ”的 构造 郴 数 如 下 所 述 : 


ı void f(double threshold, int length) { 
2 std: :vector<double> v(length) ; 

3 if(rand() > threshold*RAND_MAX) { 

4 v = obtain_data (length); 

5 std::sort(v.begin(), v.end()); 

6 process_data(v); 

? } 

8 } 


尽管 使 用 变量 v 的 概率 可 能 会 非常 低 (依赖 于 threshold)， 但 第 2 行 代码 还 是 无 条 件 对 
变量 v 进行 了 声明 。 一 个 更 好 的 方案 是 在 需要 它 时 再 声明 : 

1 void f(double threshold, int length) { 

2 if(rand() > threshold*RAND_MAX) 1 

3 std: :vector<double> v(obtain_data (length) ) ; 

4 std: :sort (v.begin(), v.end()); 

5 process_data(v)j; 

6 } 

7 } 


这 样 编写 代码 的 另 一 个 好 处 是 : 可 以 直接 调用 std::vector<> (第 3 47) 的 复制 构造 函数 。 
而 不 像 之 前 那样 : 首先 调用 构造 函数 GF int 型 参数 )， 然 后 再 调用 赋值 运算 符 。 

2. 静态 构造 

如 有 果 对 象 的 使 用 非常 频繁 ， 将 其 构造 放 在 循环 或 者 代码 块 的 外 面 ， 或 者 声明 为 static 变 
量 ， 其 性 能 可 能 会 比 延迟 构造 要 高 得 多 。 如 上 例 ， 如 果 数 组 的 长 度 是 个 常量 是 threshold 值 
接近 1， 那 么 静态 分 配 可 使 构造 开销 忽略 不 计 (因为 只 构造 一 次 )。 

| const int length=1000; 

void f (double threshold) { 

4 static std: :vector<double> v(length) ; 

5 if(rand() > threshold*RAND_MAX) { 

6 v = obtain_data(length) ; 

7 std::sort(v.begin(), v.end()); 

8 process_data(v); 


} 
10 } 


丫 量 对 象 只 实例 化 一 次 (第 4 行 )， 并 且 没 有 后 续 分 配 开 销 。 然 而 ， 如 果 向 量 长 度 可 变 ， 
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那么 内 存 不 得 不 重新 分 配 ， 从 而 产生 了 和 正常 构造 相同 的 开销 (见习 题 2.4 )。 一 般 情况 下 ， 
如 果 赋 值 操作 比 内 存 分 配 快 (平均 值 )， 则 静态 分 配 性 能 会 更 高 。 
并 行程 序 中 存放 在 共享 内 存 的 静态 数据 要 特别 关注 ， 详 细 内 容 见 6.1.4 节 。 


2.5.3 ”循环 与 迭代 器 


循环 (或 者 循环 钳 套 ) 在 科学 应 用 程序 的 运行 时 中 占 主导 地 位 。 编 译 器 对 这 些 循环 的 优 
化 能 力 是 获得 高 性 能 代码 的 关键 。 运 算 符 重 载 可 能 会 对 编程 带 来 很 多 便利 ， 但 不 利于 循环 优 
化 。 下 面 的 例子 中 ， 模 板 函 数 sprod<>() 实现 了 两 个 向 量 的 内 积 。 


1 using namespace std; 


template<class T> T sprod(const vector<T> &a, const vector<T> &b) { 


3 

4 T result=T(0); 

5 int s = a.size(); 

6 for(int i=0; i<s; ++i) // not SIMD vectorized 
7 result += a[i] * b[i]; 

8 return result; 

9 } 


在 代码 第 7 47, const T& vector<T>::operator[] 被 调用 了 两 次 ,分 别 获得 向 量 a 和 bb 的 
相应 分 量 。STL 定义 这 个 操作 的 方式 如 下 (改编 自 GNU ISO C++ 库 代 码 ): 


| const T& operator[] (size_t __n) const 
2 { return «(this->_M_impl._M_ start + __n); } 


尽管 代码 看 起 来 足够 简单 ， 可 以 有 效 内 联 。 然 而 ， 目 前 编译 器 拒绝 为 上 例 中 的 求 和 循环 
进行 SIMD 向 量 优化 。 一 个 单一 的 抽象 层 (索引 运算 符 的 重 载 ) 就 可 以 阻止 最 优 循环 代码 的 
生成 (我 们 甚至 都 没有 提 及 第 3 章 中 列举 的 更 复杂 、 更 高 层次 的 循环 转换 )。 然 而 ， 当 使 用 
迭代 器 进行 数组 元 素 访问 时 ， 向 量 优化 将 不 是 问题 : 


template<class T> T sprod(const vector<T> &a, const vector<T> &b) { 


1 

2 typename vector<T>::const_iterator ia=a.begin() ,ib=b.begin(); 
3 T result=T(0); 

4 int s = a.size(); 

5 for(int i=0; i<s; ++i) // SIMD vectorized 

6 result += ia[i] * ib[i]; 

7 return result; 

8 } 


因为 vector<T>::const_iterator 是 const T*, ， 所 以 编译 器 认为 这 是 正常 的 C 代码 。 在 C++ 
编程 中 ,使 用 迭代 器 进行 数据 访问 是 一 个 有 效 的 优化 方法 。 如 果 有 可 能 ， 低 层次 循环 代码 其 
至 应 该 驻 留 在 单独 的 编译 单元 上 (用 C 或 者 Fortran 编写 )， 并 且 和 迭代 器 可 作为 指针 参数 传递 
过 去 。 保 证 尽量 不 干扰 编译 器 对 高 级 C++ 代码 的 编译 。 

std::vector<> 模板 (最 常用 的 容器 ) 是 一 个 特例 ， 因 为 它 的 迭代 器 实现 和 标准 (C) 指针 
一 样 。 而 越 复杂 的 容器 则 有 更 复杂 的 迭代 器 类 ， 可 能 不 太 容 易 转换 为 原始 指针 。 这 种 情况 
下 ， 可 使 用 包含 多 个 类 vector<> 组 件 的 “分 段 ”结构 表示 数据 (矩阵 就 是 一 个 典型 例子 )。 
TP BIE Cait HE IE FY SR RRB. PEA BL [C99, C100]。 


习题 
2.1 分 支 的 危险 。 考 虑 下 面 的 基准 代码 : 


1 do i=1,N 
2 1£(C(i)<0.d0) then 
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3 Ali) = Bi) = Cli} ~ Diz) 
4 else 

5 A(i) = B(i) + C(i) * D(i) 
6 endif 

7 enddo 


相对 于 标准 向 量 三 元 组 ， 请 分 析 条 件 分 支 在 下 面 情况 下 对 性 能 的 影响 。 数 组 C 的 值 初 始 化 为 : a) 
正 值 、b) 负 值 、c) [-1,1] 的 任意 值 ， 并 分 别 存放 在 L1 cache, L2 cache 和 内 存 中 。 
2.2 递归 能 SIMD 向 量化 吗 ? 在 1.2.3 节 我 们 通过 下 面 循 环 代 码 学 习 了 循环 体 依 赖 对 流水 线 的 影响 : 


1 start=max (1,1-offset) 
2 end=min (N, N-offset) 

3 do i=start,end 

4 A(i)=s*A (itoffset) 
5 enddo 


如 有 果 A 是 一 个 单 精度 浮 点 数 数 组 ， 当 offset 取 何 值 时 ， 该 循环 可 被 SIMD 向 量化 (如 图 1-8 所 示 )。 
2.3 栈 上 的 延迟 构造 。 在 2.5.2 节 的 延迟 构造 例子 中 ， 如 果 我 们 使 用 标准 C 的 double 数组 ， 而 不 是 使 
用 std::vector<double>。 数 组 被 声明 时 的 区 别 在 哪里 ? 
2.4 快速 赋值 。 在 2.5.2 节 静 态 构造 例子 中 ， 我 们 指出 静态 对 象 std::vector<> 只 有 在 长 度 为 常量 时 才 
具有 优势 。 如 果 长 度 可 变 ， 赋 值 操作 会 导致 内 存 的 重新 分 配 ， 真 的 是 这 样 吗 ? 
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在 高 性 能 计算 中 ， 访 存 是 最 重要 的 性 能 限制 因素 。 如 前 所 述 ， 微 处 理 品 的 理论 峰值 性 能 
和 访 存 带宽 存在 固有 的 “不 平衡 性 。 10° I r 10" 
因为 很 多 科学 和 工程 应 用 程序 由 需 
要 大 量 数据 传输 的 基于 循环 的 代码 10 
构成 ， 所 以 相对 较 低 的 内 存 (甚至 
是 硬盘 ) 访 存 带宽 ， 就 会 导致 片上 
资源 的 低 效 利用 和 程序 性 能 的 降低 。 
图 3-1 综合 显示 了 现代 并 行 计 
算 机 系统 的 数据 通路 构成 ， 以 及 在 10 
不 同 层次 上 的 带宽 和 延迟 范围 。 执 
行 计算 任务 的 功能 部 件 位 于 该 层次 10 
结构 的 顶部 。 在 这 些 不 同 层次 的 数 
据 通路 中 ， 访 存 带宽 最 大 有 3 一 4 。 10 
个 数量 级 的 差异 ， 访 存 延迟 最 高 也 
有 8 个 数量 级 的 差异 。 为 了 获得 计 
算 操作 数 ， 数 据 传输 需要 到 达 的 数 。 “0 2 
据 通路 层次 越 深 ， 对 性 能 的 影响 就 延迟 (s) 带宽 (B/s) 
越 小 。 因 此 ， 任 何 优化 首先 要 考虑 图 3-1 计算 机 系统 中 不 同 设备 间 数 据 传输 延迟 和 带宽 的 典 
减 分 在 竹 能 低 的 数据 通路 上 的 数据 型 值 。 图 中 忽略 了 寄存 器 ， 这 是 因为 寄存 器 带宽 通常 与 计算 
传输 。 当 这 不 能 实现 时 ， 至 少 要 让 核心 的 计算 能 力 相 匹配 ， 而 且 其 延迟 是 流水 线 执行 的 一 部 分 
数据 传输 尽 可 能 高 效 。 


3.1 平衡 分 析 与 lightspeed 评估 
3.1.1 基于 市 宽 的 性 能 建 模 

许多 程序 员 都 会 竭尽 全 力 提 高 程序 性 能 。 为 了 确定 这 些 努 力 是 否 有 效 或 者 确定 目标 程序 
是 否 已 经 得 到 了 充分 优化 ， 程 序 员 会 使 用 简单 的 经 验 法 则 来 评估 这 些 基于 循环 有 市 宽 访 存 受 
限 的 代码 的 理论 性 能 。 这 里 引入 一 个 核心 概念 : 平衡 (balance)。 例 如 ， 一 个 处 理 器 芯片 的 


“DLA Ea” Ba 等 于 可 能 的 访 存 带 宽 (GWord/s,， 和 干粮 字 / 秒 ) 与 峰值 性 能 ( GFlop/s, JE 
浮 点 运算 次 数 / 秒 ) 的 比值 : 
memory 访 存 带 宽 [GWord/s] Pmax 


ee 
peak 峰值 性 能 [GFlop/s] Pcs (3-1) 


尽管 “ 访 存 带宽 ”通常 对 真正 访 存 受 限 的 代码 有 用 ， 但 这 个 术语 可 被 cache 带宽 或 者 网 


101° 
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络 带宽 代替 。 假 定 访 存 延 迟 被 预 取 和 软件 流水 这 类 技术 隐藏 ， 例 如 ， 一 个 时 钟 频率 为 3.0 
GHz 的 双核 芯片 ， 每 核 每 个 时 钟 周 期 最 多 可 执行 4 个 浮 点 数 计算 ， 访 存 带 宽 为 10.6GB/s， 则 
这 个 处 理 器 的 机 器 平衡 值 为 0.05SWAF。 在 本 书 进行 写作 的 时 候 ，Bu。 值 一 般 位 于 0.03WAE (PR 
准 的 基于 cache 的 微 处 理 融 ) ~ 0.5W/F (高 端 行 向 量 处 理 需 ) 之 间 。 由 于 不 断 增 长 的 DRAM 
差距 和 不 断 增 加 的 处 理 器 核 数 ， 未 来 标准 架构 的 机 需 平 衡 值 可 能 会 降低 。 表 3-1 显示 了 不同 
数据 传输 路 径 的 平衡 值 。 

表 3-1 不 同 传输 路 径 限 制 的 典型 的 平衡 值 。 在 网 络 和 磁盘 的 平衡 值 计 算 中 ， 
以 典型 的 双 路 计算 节点 的 峰值 性 能 为 基准 


数据 路 径 平衡 值 [W/F] 
cache 0.5 ~ 1.0 
机 器 (AFF) 0.03 一 0.5 
高 速 互联 0.001 一 0.02 
千 兆 以 太 网 互联 0.0001 一 0.0007 
磁盘 (或 磁盘 子 系统 ) 0.0001 一 0.01 


3-2 收集 了 1994 一 2010 年 间 ， 英 特 尔 处 理 器 的 峰值 性 能 和 访 存 带宽 信息 (选取 每 年 
时 钟 性 能 最 高 的 茧 面 处 理 句 作为 代表 )。 尽 管 2005 年 之 前 峰值 性 能 的 增长 速度 要 快 于 访 存 
W, 但 第 一 于 双核 芯片 ( Pentium D) 的 推出 才 真 正大 幅 增 大 了 DRAM 差距。 虽然 Core i7 
为 访 存 带宽 说 回 了 一 些 颜 面 ， 但 长 期 的 发 展 趋 势 显 然 不 会 受到 这 个 例外 的 影响 。 
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64 图 3-2 1994 年 起 ， 英 特 尔 处 理 器 的 最 大 算术 运算 性 能 (空心 圆 ) 和 理论 峰值 访 存 带 宽 (实心 
65 圆 ) 的 发 展 。 选 取 每 年 时 钟 频率 最 高 的 处 理 器 作为 代表 (数据 收集 自 JanTreibig ) 


为 了 量化 运行 在 具有 特定 平衡 值 机 器 上 的 代码 需求 ， 我 们 进一步 定义 了 循环 的 代码 平 
衡 值 : 
”数据 传输 量 [Word] 
人 一 浮 点 数 运算 皮 数 [Flopj (22) 
“数据 传输 量 ” 表 示 通 过 数据 通路 (性 能 限制 因素 ) 传输 的 所 有 数据 量 (单位 为 字 )， 
这 个 术语 在 一 定 程 度 上 依赖 于 硬件 ( 见 3.3 节 实 例 )。 代 码 平衡 值 的 倒数 称 为 计算 密度 
(computational intensity)。 现 在 我 们 可 以 计算 出 代码 平衡 值 为 Be 的 代码 在 机 器 平衡 值 为 Bm 
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的 设备 上 所 能 达到 的 峰值 性 能 的 最 大 期 望 : 


By 
/=min (1, 5° ) ( 3-3 ) 
我 们 将 这 个 小 数 称 为 循环 的 “lightspeed”。 则 所 能 达到 的 峰值 性 能 (GFlop/s) X: 


(3-4) 





Druan 
P= =yain = 2 ) 
如 果 1 = 1, 则 代码 性 能 的 限制 因素 将 在 CPU 或 其 他 地 方 ， 访 存 带 宽 不 再 是 代码 性 能 的 限 
制 因素 。 值 得 注意 的 是 这 个 简单 的 性 能 模型 是 基于 以 下 几 点 重要 假设 : 
口 循环 代码 应 以 最 佳 方式 使 用 所 有 的 算术 单元 (乘法 和 加 法 )。 如 没有 ， 则 必须 引入 一 
个 校正 因子 来 反映 有 效 峰 值 性 能 和 绝对 峰值 性 能 的 比值 (例如 ， 如 果 代 码 只 使 用 了 加 
法 单元 ， 则 有 效 峰 值 性 能 为 绝对 峰值 性 能 的 一 半 )。 当 使 用 的 内 核 数 量 少 于 芯片 上 的 
内 核 总 数 时 ， 也 要 有 类 似 的 考虑 。 
口 虽然 循环 代码 基于 双 精 度 浮 点 数 运 算 。 然 而 我 们 可 以 非常 容易 地 得 到 更 加 适合 其 他 
代码 的 相似 术语 (例如 ，32 位 字 每 整数 算术 运算 指令 )。 
口 数据 传输 和 运算 完美 重 又 。 
O 最 慢 的 数据 通路 决定 了 循环 代码 的 性 能 。 所 有 更 快 的 数据 通路 都 被 认为 是 无 限 快 的 。 
口 计算 系统 面向 吞吐 量 ， 即 忽略 延迟 对 性 能 的 影响 。 
口 完全 有 可 能 实现 对 内 存 带 宽 的 利用 达到 饱和 ， 从 而 使 机 器 平衡 值 的 计算 达到 最 大 值 。 
近年 来 的 多 核 架 构 设 计 中 如 果 只 使 用 其 中 一 部 分 核 ， 则 对 内 存 接口 的 使 用 是 低 效 的 。 
这 使 得 性 能 预测 更 加 困难 ， 因 为 这 需要 一 个 单独 的 “有 效 ” 机 器 平衡 值 ， 这 个 值 不 仅 
是 简单 地 使 用 核 数 与 总 核 数 的 比值 。3.1.2 节 和 习题 3.1 对 这 点 会 有 更 加 详细 的 讨论 。 
虽然 平衡 模型 经 常 很 有 有用， 足够 评估 循环 代码 的 性 能 ， 并 能 对 性 能 优化 提供 指导 (特别 
是 同 可 视 化 结合 起 来 ， 比 如 roofline 模型 [M42])。 我 们 必须 强调 的 是 确实 存在 更 加 先进 的 性 
能 模型 策略 ， 参 见 文献 [L76, M43, M41]。 
我 们 以 1.3 节 介 绍 的 标准 向 量 基 准 代 码 为 例 : 


1 do i=1,N 
2 A(i) = B(i) + C(i) * D(i) 
3 enddo 


该 内 核 每 个 迭代 循环 执行 两 次 浮 点 数 运算 、 三 次 数据 读 取 指 令 ( 读 取 数 据 BG) Ca) 和 
D(i)) 和 一 次 数据 存储 指令 (存储 A(i))。 代 码 平衡 值 为 B. = (3+1)/2 = 2。 如 果 该 代码 运行 在 
机 需 平 衡 值 Bu= 0.1 的 CPU E, ARMIE LAMH lightspeed HEX 0.05， 即 峰值 的 5%。 

基于 cache 的 标准 微 处 理 器 ， 其 最 外 层 cache 通常 会 具有 回 写 策略 。 如 1.3 节 所 述 ， 如 
果 延 迟 写 或 者 行 0 未 被 使 用 时 ， 当 一 次 写 操作 未 命中 时 ， 为 保证 cache - 存储 器 的 一 致 性 ， 
需要 一 次 cache 行 的 写 分 配 。 在 这 样 的 条 件 下 ， 计算 代 码 平衡 值 时 ， 数 组 4 的 存储 操作 必须 
计算 两 次 ， 这 样 我 们 计算 出 最 终 的 lightspeed X lwa = 0.04。 


3.1.2 STREAM 基准 测试 
McCalpin STREAM 是 用 来 评估 处 理 器 或 者 系统 内 存 接口 性 能 的 基准 测试 ， 包 含 四 个 简 
单 的 合成 内 核 循环 代码 。 表 3-2 列 出 了 它们 的 操作 以 及 各 自 的 代码 平衡 值 。 有 效 内 存 带 宽 


(GB/s) 通常 作为 其 性 能 提供 报告 。 注 意 不 要 将 STREAM TRIAD 内 核 与 上 一 节 讨 论 的 三 元 
组 回 量 操作 混 消 ， 它 包含 一 个 额外 的 数据 读 取 操作 。 
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% 3-2 STREAM 基准 测试 内 核 每 次 循环 需要 传输 的 数据 量 (第 三 列 ) 和 
浮 点 数 运算 量 ( 第 四 列 )。 括 号 中 的 数字 将 写 入 操作 也 计算 在 内 


za z 
sa aoso | 2) | 1 | 2000) 
AD [a -a it | 209 [| 1 | vav 


TRIAD 1.5 (2.0) 
STREAM 基准 测试 存在 串 行 和 OpenMP 并 行 两 个 版 本 (参见 第 6 章 )。 这 两 个 版 本 通常 
都 运行 在 足够 大 的 数据 集 上 ， 以 确保 内 核 性 能 都 是 访 存 受 限 的 。 因 此 ， 内 存 带 宽 测 试 仅 依赖 
于 数据 读 取 和 存储 操作 的 次 数 ，COPY 和 SCALE (ADD 和 TRIAD 同样 适用 ) 内 核 代 码 的 性 
能 结果 往往 类 似 。 需 要 搞 清 楚 的 是 ，STREAM 并 不 是 仅 通过 表 3-2 列 出 的 循环 内 核定 义 的 ， 
还 包含 Fortran 源 代 码 (也 有 可 用 的 C 语言 版 本 )。 这 一 点 非常 重要 ， 因 为 经 过 优化 的 编译 器 
会 识别 出 STREAM 源 代 码 ， 从 而 使 用 手工 优化 的 机 器 代码 代替 内 核 代 码 。 因 此 ，STREAM 
的 性 能 结果 可 以 真实 地 反映 出 便 件 的 实际 性 能 。 在 STREAM 网 站 上 可 以 找到 许多 针对 过 去 
和 现在 的 计算 机 系统 的 基准 测试 代码 [W119]。 
遗憾 的 是 ，STREAM 同 三 元 组 向 量 代 码 一 样 ， 达 不 到 平衡 分 析 所 预测 的 性 能 水 平 ， 特 别 是 
在 商业 (基于 PC 的 ) 硬件 上 。 其 中 的 原因 是 多 方面 的 ， 这 里 不 进行 详细 讨论 ， 主 要 原因 如 下 : 
2 在 读 和 写 两 个 方向 上 往往 不 能 同时 达到 峰值 带宽 。 例 如 ， 存 在 这 种 情况 ， 内 存 读 和 
内 存 写 的 峰值 带宽 的 比例 为 2 : 1， 在 这 种 情况 下 ， 写 操作 并 不 能 充分 利用 内 存 带 宽 。 
口 协议 开销 (参见 4.2.1 节 )、 芯 片 缺 陷 、 内 存 芯 片 的 错误 校正 ， 以 及 高 延迟 (不 能 完全 
被 预 取 隐藏 ) 都 会 降低 有 效 带 宽 。 
O 处 理 咒 芯片 上 的 数据 通路 (如 L1 cache 和 寄存 器 间 的 数据 通路 )， 可 以 是 单 向 的 。 如 
果 代 码 在 读 和 写 操作 间 没 有 取得 很 好 的 平衡 ， 那 么 在 一 个 方向 上 的 内 存 带宽 可 能 不 
会 得 到 充分 利用 。 这 是 在 cache 上 进行 平衡 分 析 时 应 该 考虑 的 内 容 。 
然而 ，STREAM 绪 采 所 标记 的 最 大 内 存 带 宽 依 然 是 正确 的 。 没 有 具有 类 似 特征 〈 读 写 操 
作 的 数量 ) 的 实际 应 用 代码 可 以 表现 得 更 好 。 这 样 ， 在 lightspeed 计算 中 应 该 引用 STREAM 
所 测 得 的 带宽 hs， 而 不 是 硬件 的 理论 值 。 式 (3-4 ) 可 修正 为 : 


P = min (Paso z ) (3-5) 


如 果 一 个 实际 应 用 程序 能 够 达到 基于 STREAM 预测 带宽 的 较 大 比值 (如 80%), EER 
味 着 该 程序 没有 继续 改进 内 存 接 口 利 用 率 的 余地 。 当 然 ， 这 并 不 意味 着 没有 进一步 优化 的 空 
E (如 下 面 章节 的 讨论 )。 

我 们 选择 一 个 使 用 英特尔 Xeon 5160 处 理 器 (参见 图 4-4 ) 的 系统 作为 测试 平台 。 该 处 
理 器 的 每 核 理 论 内 存 带 宽 为 hws = 10.66 GB/s， 峰 值 性 能 为 Pmax = 12 GFlop/s (3.0GHz, 4% 
个 时 钟 周 期 可 执行 4 次 浮 点 数 运算 )， 则 单 核 机 器 平衡 值 为 Bm = 0.111 W/F (如 果 两 个 核 都 运 
行 访 存 受 限 代码 ， 则 该 值 需 除 以 2。 但 是 目前 我 们 假定 每 个 系统 通路 只 运行 一 个 线程 )。 

K 3-3 显示 了 STREAM 在 这 个 平台 上 ， 有 无 写 分 配 的 比较 测试 结果 。 由 于 基准 测试 
代码 并 没有 考虑 这 个 细节 ， 所 以 当 存 在 写 分 配 操作 时 ， 测 试 带宽 和 实际 内 存 传 输 不 同 。 如 
表 3-3 所 示 ， 实 测 性 能 和 理论 峰值 性 能 的 差距 非常 明显 ， 在 这 个 平台 上 几乎 不 可 能 超过 峰值 
市 宽 的 40%。ADD 与 TRIAD (两 次 读 取 操作 而 不 是 一 次 ) 内 核 的 效率 特别 低 。 如 果 这 个 结 
果 被 用 来 做 循环 代码 的 平衡 分 析 ，COPY 和 SCALE 应 该 运行 在 加 载 /存储 (BA) 平衡 的 情 
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况 下 。3.3 节 将 会 讨论 一 个 具体 实例 。 
表 3-3 英特尔 Xeon 5160 处 理 器 有 无 写 分 配 操作 的 单线 程 STREAM 带宽 (GB/s) 
的 比较 测试 结果 。 写 分 配 可 通过 使 用 延迟 存储 指令 避免 
元 
至 bln 
TRIAD 036 


3.2 ”存储 顺序 


多 维 数组 、 和 矩阵 或 者 类 和 矩阵 结构 (最 重要 )， 在 科学 计算 中 无 处 不 在 。 数 据 访 问 是 一 个 
关键 的 问题 : 标准 计算 机 所 固有 的 一 维 、 基 于 cache 行 的 内 存 布局 和 任何 多 维 数据 结构 间 的 
映射 必须 与 数据 读 取 与 存储 的 顺序 相 匹 配 ， 这 样 才能 充分 利用 空间 和 时 间 局 部 性 。 一 维 数 组 
的 非 连续 访 存 会 减少 空间 局 部 性 ， 从 而 导致 访 存 带 宽 利 用 率 的 低 效 (见习 题 3.1 )。 当 处 理 多 
维 数组 时 ， 这 些 访 存 模 式 可 以 很 自然 地 产生 。 


E a N Ù F 间隔 工 访 存 

1 do i=1,N for(i=0; i<N; ++i) { 
2 do j=1,N for (j=0; JjJ<N; ++jļj) 1 
3 A(i,3) = isj ali] [j] = i+3; 

4 enddo } 

5 enddo } 


上 面 的 Fortran 和 C 代码 示例 执行 相同 的 任务 ， 数 组 的 二 维 索引 也 都 位 于 内 层 循环 ， 但 
是 两 者 的 数据 访 存 模式 完全 不 同 : Fortran 代码 的 内 存 地 址 的 访问 跨度 为 N*sizeofl(double)， 
C 代码 的 内 存 地 址 的 访问 跨度 是 最 优 的 ( 访 存 跨度 为 1 )。 这 是 因为 对 于 多 维 矩 阵 在 C 语言 
中 是 按 行 存储 ( 见 图 3-3 )， 而 在 Fortran 语言 中 是 按 列 存储 ( 见 图 3-4 )。 这 在 进行 数据 访问 
优化 时 必须 要 牢记 : 当 内 层 循环 变量 作为 多 维 数组 索引 时 ， 应 该 保证 跨度 为 1 的 数据 访问 模 
式 。3.4 市 将 详细 讨论 如 何 实现 。 


sesten [O] [O] psom [O] [1] lsass [O] [2] p [0] [3 ] ftp [0] [4] foe 


i [1] pagpa] [2] beel [1] [3] med 1 [4 
[ 


$ TN 
l oe (2) (21 [3]F 
4 [3] [3] > [3] [3] 
G =| [4] [1] == [4] [3] [4] [4] 


图 3-3 德 阵 按 行 存储 策略 ，C 编程 语言 使 用 这 种 策略 。 在 内 存 中 矩阵 行 被 连续 存储 。 假 定 
cache 行 包 含 四 个 和 矩阵 元 素 (使 用 中 括号 表示 ) 
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图 3-4 和 矩阵 按 列 存储 策略 ，Fortran 编程 语言 使 用 这 种 策略 。 在 内 存 中 和 矩阵 列 被 连续 存储 。 假 
定 cache 行 包 含 四 个 和 矩阵 元 素 〈 使 用 中 括号 表示 ) 


3.3 RPA: Jacobi 算法 


Jacobi 算法 是 数值 分 析 和 模拟 中 许多 基于 stencil 循环 方法 的 原型 。 在 其 最 简单 的 形式 
中 ， 可 以 用 来 求解 一 个 标量 图 数 B C, A 的 扩散 方程 : 


——=A®D ( 3-6 ) 


求解 一 个 长 方形 区 域 的 狄 利 克 雷 边界 条 件 。 当 使 用 有 限 差分 法 时 ， 其 微分 算 子 是 离散 的 
(在 不 丧失 一 般 性 的 前 提 下 ， 这 里 我 们 限定 为 二 维 方程 。 但 请 分 析 习 题 3.4 中 ， 二 维和 三 维 性 
能 的 区 别 )。 

OP (xi, Vi) _ P Ximi, Vi) + Pin, Yi) — 2P.M%, Vi) 
ôt (ôx? 
PC Via) + PC, Yiri) — 2P Yi) 
(ôy)? 

在 每 一 个 时 间 步 长 ， 更 在 坐标 (x vi) AREE OD, B (3-7) 使 用 其 四 个 邻居 点 的 
原 值 计算 获 得 。 当 然 ，B 的 新 值 必须 写 回 第 二 个 数组 中 。 当 所 有 点 都 完成 更 新 后 ， 算 法 进入 
下 一 层 迭 代 。 代 码 清单 3-1 是 该 内 核 的 一 个 可 能 实现 。 该 实现 解决 了 稳定 状态 的 问题 但 缺乏 
收敛 条 件 ， 当 然 这 不 是 我 们 考虑 的 重点 (注意 交换 t0 和 11 区 域 不 需要 逐个 元 素 交 换 。 同 该 
算法 的 初步 实现 相 比 ， 仅 通过 交换 第 三 个 数组 的 索引 ， 我 们 就 获得 了 两 倍 的 性 能 提升 ) 。 

许多 优化 方法 都 可 能 加 速 这 段 代 码 。 我 们 首先 使 用 平衡 分 析 预 测 这 段 代 码 的 性 能 ， 然 后 
和 实测 值 相 比较 。 图 3-5 说 明了 一 个 二 维 Jacobi 算法 的 五 点 更 新 过 程 。 每 次 更 新 需要 四 次 数 
据 加 载 和 一 次 数据 存储 操作 ， 但 是 其 “下 行 邻 居 ”(downstream) phi(i+1, k, t0) 在 两 次 迭代 之 

一 定 会 再 次 用 到 (从 cache 中 )， 所 以 在 计算 代码 平衡 值 时 ， 只 有 三 次 数据 读 取 操作 (共有 . 


(3-7 ) 
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四 次 ): B= 1.0 WF (如 包含 写 分 配 ， 则 代码 平衡 值 为 1.25 W/F)。 然 而 ， 如 图 3-5 Prax, Fk 
行 遍历 会 将 大 坐标 最 大 ( 即 phi(zEtl,t0)) 的 元 素 第 一 次 加 载 到 cache 中 。 这 是 在 内 存 传输 中 
不 可 避免 的 。 如 果 cache 足以 容纳 超过 两 行 的 数据 元 素 ， 那 么 在 cache 中 三 次 连续 的 行 这 历 
会 使 用 这 个 元 素 。 在 这 种 情况 下 ， 我 们 可 以 假设 加 载 上 和 k-1 行 没 有 时 间 消 耗 ， 所 以 代码 
平衡 值 降 为 B. = 0.5 W/F( 如 果 包 含 写 分 配 ， 其 值 为 0.75 W/F)。 如 果 内 层 维度 逐渐 变 大 (如 
图 3-5 所 示 ， 列 变 多 )， 必 然 要 增加 一 个 ， 最 终 三 个 额外 的 数据 加 载 操作 导致 代码 平衡 值 回 


到 令 人 不 愉快 的 B.= 1.0(1.25) W/F. 

代码 清单 3-1 二 维 Jacobi 算法 的 简单 实现 

1 double precision, dimension (0:imax+1,0:kmax+1,0:1) :: phi 

2 integer :: t0,tl 

3 tO = 0 3 = 1 

4 do it = 1,itmax ! choose suitable number of sweeps 

5 do k = 1,kmax 

6 do i = 1, imax 

7 ! four flops, one store, four loads 

8 phi(i,k,tl) = ( phi(it+1l,k,t0O) + phi(i-1,k,t0) 

9 + phi{i,;k#1,t0) + phi (i,k=1,60) ) * 6.25 

10 enddo 

11 enddo 


! swap arrays 
i = tO ; tO=tl ; tl=i 
enddo 


a 0 
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图 3-5 ZH Jacobi 算法 更 新 示意 图 。 如 果 至 少 有 连续 两 行 可 以 保存 在 cache 中 (阴影 区 域 )， 
在 每 次 更 新 时 ， 只 有 To 点 需要 从 内 存 中 获得 (交叉 阴影 点 ) 


根据 这 些 平衡 因子 ,我 们 可 以 计算 出 给 定 硬 件 架 构 上 代码 的 lightspeed. 3.1.2 节 已 经 给 
出 了 在 英特尔 Xeon 5160 平台 上 的 STREAM 结果 。 当 cache 足以 容纳 两 个 连续 行 时 ， 数 据 
传输 特点 和 STREAM COPY 以 及 SCALE 相 匹 配 : 一 次 数据 加 载 、 一 次 数据 存储 ， 再 加 上 
一 次 强制 性 写 分 配 。 因 为 Jacobi 内 核 只 包含 一 次 乘法 操作 ， 而 不 是 三 次 加 法 操作 ， 所 以 理论 
的 机 器 平衡 值 Bm = 0.111 W/F 不 得 不 进行 修改 。 因 此 我 们 使 用 
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B+ a Wwe = 0.167W/F ( 3-8 ) 
"4/6 = l 


基于 这 个 理论 值 ， 并 假定 写 分 配 不 能 避免 ， 因 此 : 
B} 0.167 
lest = = 0.75 ~ 0.222 (3-9 ) 

其 中 ， 修 正 的 理论 峰值 性 能 为 Pisx = 12 + 4/6GFlop/s = 8 GFlop/s， 则 预测 性 能 为 
1.78GFlop/s。 然 而 ， 基 于 表 3-3 列 出 的 STREAM COPY 值 ， 该 预测 性 能 应 再 乘 以 0.38， 实 
际 预 测 性 能 为 675 MFlop/s。 随 着 内 层 维度 的 增 大 ，cache 已 经 不 能 够 同时 容纳 两 个 甚至 
一 个 连续 行 ， 代 码 平衡 值 第 一 次 上 升 为 B. = 1.0 WF, RAW B. = 1.25 W/F。 图 3-6 显示 
了 附加 各 种 限制 和 预测 的 、 不 同 内 层 维度 的 性 能 对 比 图 (为 节省 内 存 ， 当 入 较 大 时 (E 
kmax<<imax ) 使 用 了 非 方 形 区 域 )。 这 个 模型 可 以 非常 明显 地 描述 整体 行为 。 小 规模 的 性 能 
波动 可 以 有 多 种 原因 ， 例 如 合并 或 者 内 存 bank 的 影响 。 

图 3-6 同时 也 引入 一 个 新 的 性 能 指标 : 更 新 的 区 域 数目 (LUP) / 秒 。 因 为 它 强 调 “ 工 作 
完成 ”而 不 是 MFlop/s， 所 以 更 适合 stencil 算法 。 在 我 们 的 案例 分 析 中 ，Flop 和 LUP HA 
一 个 简单 的 1 :4 的 对 应 关系 。 但 在 一 般 情况 下 ,MFlop/s 会 随 着 算法 优化 方法 的 使 用 而 变化 ， 
例如 使 用 不 同 编译 器 重新 排列 代码 序列 而 导致 每 次 更 新 所 要 执行 的 浮 点 数 运算 数目 不 同 。 然 
而 ， 用 户 最 感 兴趣 的 是 在 一 定时 间 内 可 以 完成 多 少 实际 工作 。LUP/s 使 得 当 底 层 问 题 相 同 
时 ,不 管 采 用 何 种 优化 方法 ， 所 有 的 性 能 都 具有 可 比 性 。 例 如 ， 许 多 处 理 器 提供 了 Fused 
Multiply-Add (FMA) 机 帮 指 令 执 行 r = a +b. cc 操作: 一 次 可 执行 两 次 浮 点 数 运算 。 在 这 
种 情况 下 ， 因 为 每 次 浮 点 数 运算 延迟 的 减少 ，FMA 可 大 幅 提 高 性 能 。 将 代码 清单 3-1 Jacobi 
算法 代码 重 写 如 下 : 

1 do k = 1,kmax 

2 do i= 1,imax 
3 phi(i,k,t1) = 0.25 * phi(it+tl,k,t0) + 0.25 * phi(i-1,k,t0) 

4 + 0.25 + phi(i,k+1,t0) + 0.25 « phi (i,k-1,t0) 


enddo 
enddo 
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图 3-6 Jacobi 算法 在 Xeon 5160 处 理 器 上 ， 不 同 内 层 循环 长 度 的 性 能 对 比 图 。 横 线 为 基于 
STREAM 基准 测试 带宽 的 性 能 预测 


这 个 版 本 用 7 次 浮 点 数 运算 代替 了 4 次 浮 点 数 运算 ; 当 算法 是 访 存 受 限时 ，MLUP/s 性 
能 指标 并 没有 发 生变 化 〈 这 留 给 读者 使 用 平衡 分 析 方 法 证 明 )， 但 是 MFlop/s 却 发 生 了 变化 。 
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3.4 ”案例 分 析 : 稠密 矩阵 转 置 


在 下 面 的 实例 分 析 中 ， 假 定 矩阵 按 列 存储 。 计 算 一 个 稠密 矩阵 的 转 置 (4 = B')， 根据 循 
环 的 组 织 顺 序 ， 和 矩阵 4 或 者 召 会 有 一 个 矩阵 的 访 存 是 非 连续 的 。 怎 阵 转 置 最 不 华 的 实现 方 


式 如 下 : 
A(i, j) = B(j,i) 


矩阵 4 的 写 人 操作 是 非 连续 的 ( 见 图 3-7 )。 由 于 写 分 配 操作 的 影响 ， 非 连续 写 比 非 连 
续 读 的 代价 要 大 得 多 。 从 这 个 最 坏 的 代码 出 发 ， 我 们 尝试 获得 期 望 性 能 。 由 于 矩阵 转 置 不 执 
行 任何 算术 操作 ， 因 此 我 们 使 用 有 效 带 宽 ( 即 应 用 程序 达到 的 GB/s) 来 表示 性 能 。 


列 
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] 2 3 4 5 6 7 





图 3-7 vanilla 矩阵 转 置 中 的 cache 行 遍 历 ( 非 连续 写 人 操作 ， 按 列 存储 )。 如 果 和 矩阵 第 一 维 的 
大 小 是 cache 行 的 整数 倍 ， 则 和 矩阵 的 每 一 列 都 是 cache 行 对 齐 的 


C 表示 cache K/h, Le 表示 cache 行 大 小 (单位 为 DP 字 )。 根 据 和 矩阵 大 小 的 不 同 ， 共 有 
三 个 主要 的 性 能 优化 法 则 : 

OC 当 两 个 矩阵 可 以 一 次 性 加 载 到 CPU cache 中 时 (2N? < C)， 我 们 期 望 的 有 效 访 存 带 
宽 同 cache 的 访 存 速度 是 同一 数量 级 的 。 空 间 局 部 性 的 重要 性 只 体现 在 多 个 不 同 的 
cache 层次 上 。 这 种 情况 下 ， 优 化 空间 有 限 。 

Ch 当 和 矩阵 太 大 而 不 能 一 次 性 加 载 到 cache 中 ， 但 仍然 有 

NL, < C (3-10) 

A 的 非 连 续 写 操作 对 性 能 的 影响 微乎其微 ， 这 是 因为 在 一 次 完整 的 行 遍历 中 ， 所 有 导致 

写 未 命中 数据 的 写 人 操作 都 开启 一 个 cache 行进 行 写 分 配 。 这 些 cache 行 在 接 下 来 的 二 -1 
行 中 有 很 大 可 能 依然 位 于 cache 中 ,减轻 了 非 连 续 写 的 影响 (空间 局 部 性 )。 在 这 种 情况 下 ， 
有 效 访 存 带宽 应 该 和 处 理 器 可 达到 的 最 大 访 存 带宽 位 于 同一 数量 级 。 

O NERAK, ENL ZC, 每 次 对 4 的 写 人 操作 都 会 导致 cache 未 命中 和 随 

后 的 写 分 配 操作 。 在 这 种 情况 下 ， 当 进行 内 存 写 人 时 ， 只 有 一 个 cache 行 的 数据 被 真 
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图 3-8 的 vanilla 部 分 说 明了 上 述 假设 基本 上 是 正确 的 。 然 而 ， 即 使 工作 集 全 部 加 载 到 
cache 中 ， 非 连续 写 操作 看 起 来 也 是 非常 低 效 的 。 这 可 能 是 因为 所 选择 架构 (英特尔 Xeon/ 
Nocona) 的 Ll cache 是 完全 写 入 (write-through) 类 型 ; 例如， 不 管 Ll1 cache 命中 与 否 ，L2 
cache 在 写 人 操作 时 总 是 更 新 。 因 此 ， 两 级 cache 间 的 写 分 配 操作 浪费 了 大 部 分 内 部 可 用 带宽 。 
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图 3-8 ”稠密 矩阵 转 置 的 不 同 实现 在 L2 cache 大 小 为 1MB 的 现代 处 理 器 (英特尔 Xeon/Nocona 
3.2 GHz) 上 的 性 能 (有 效 带宽 ) 图 。N = 256 代表 了 和 矩阵 可 以 完全 加 载 到 cache 中 的 临 
界 大 小 ，N = 8192 代表 了 NA cache 行 可 完全 加 载 到 cache 中 的 临界 大 小 


在 上 述 的 第 二 个 性 能 优化 法 则 中 ， 当 写 入 操作 的 N 个 cache 行 占用 的 cache K/A L2 
cache 大 小 具有 可 比 性 时 ， 性 能 会 大 致 恒定 在 一 个 水 平 上 : 有 效 带 宽大 约 是 1.8 GB/s， 同 理 
论 最 大 带宽 5.3 GB/s (由 两 个 性 能 为 333MTransfer/s 的 内 存 通 道 获 得 ) 相 比 并 不 理想 。 绝 
大 多 数 商 业 架 构 的 理论 峰值 市 宽 通 过 使 用 编译 融 生 成 的 代码 不 可 能 达到 ,但 是 50% 的 性 能 
还 是 经 党 可 以 达到 的 。 因 此 ， 肯 定 有 一 个 因素 能 够 显著 降低 可 用 带宽 。 这 个 因素 就 是 快 表 
( Translation Lookaside Buffer，TLB )， 物 理 地 址 和 逻辑 地 址 转换 表 。TLB 可 以 看 作 是 额外 
的 一 级 cache, H cache 行 大 小 为 物理 内 存 页 面 大 小 (页面 大 小 通常 为 4KB， 也 有 16KB AY, 
在 有 的 系统 上 甚至 可 以 配置 )。 在 本 节 使 用 的 架构 上 ， 它 只 需 容纳 64 个 元 素 ， 对 应 于 256KB 
AF (物理 页 面 大 小 为 4KB)。 这 个 值 小 于 L2 cache 大 小 ， 所 以 TLB 的 影响 在 cache 内 部 也 
可 以 观察 到 。 更 为 严重 的 是 ， 当 NN 大 于 512 时 ， 也 即 一 个 矩阵 行 大 小 超过 了 物理 页 面 的 大 
小 ， 非 连续 访 存 的 每 一 个 单独 访 存 操作 都 会 导致 TLB 未 命中 。 即 使 页 表 位 于 L2 cache 中 ， 
这 也 会 明显 降低 有 效 带 宽 。 这 是 因为 每 一 次 TLB 未 命中 都 会 导致 至 少 57 个 处 理 器 时 钟 周 期 
的 访 存 延 迟 (在 这 个 给 定 的 CPU 上 )。 在 频率 为 3.2 GHz， 总 线 传输 速率 为 666MW/s 的 核 
上 ， 这 相当 于 传输 超过 64 字 节 cache 行 的 数据 。 

当 N 三 8192 时 ， 性 能 最 终 达 到 了 预期 的 低 水 平 。 本 节 所 使 用 处 理 器 的 理论 内 存 带 宽 为 
5.3GB/s， 实 际 仅 达 到 了 大 约 200MB/s。 在 有 效 长 度 为 128 个 字 节 (每 次 未 命中 时 ， 两 个 长 
度 为 64 FKY cache 行 被 一 起 读 取 ， 但 分 别提 取 ) 的 cache 行 中 ， 只 有 一 个 元 素 被 用 来 执 


行 非 连续 写 操作 。 在 cache 内 部 ， 每 一 次 循环 迭代 都 需要 读 取 或 者 写 人 3 个 字 , 但 最 坏 的 
情况 是 需要 读 取 或 者 写 人 33 个 字 。 因 此 我 们 期 望 一 个 1 : 11 的 性 能 比 ， 同 观察 到 的 值 大 略 
相等 。 

我 们 必须 再 次 强调 基于 人 硬件 特征 的 性 能 预测 并 不 是 在 任何 情况 下 都 能 够 发 挥 作用 [M41， 
M44]， 特 别 是 在 商业 系统 中 ， 其 芯片 组 、 内 存世 片 和 中 断 基 本 上 不 可 控 。 有 时 对 发 生 的 独 
特性 能 行为 的 原因 只 有 一 个 定性 的 了 解 ， 但 这 足以 获得 下 一 步 的 逻辑 优化 步骤 。 

稠密 矩阵 转 置 最 重要 的 一 个 优化 方法 是 交换 藤 套 循环 的 顺序 ， 即 将 i 移 人 内 层 循环 。 虽 
然 这 样 会 导致 矩阵 恕 的 非 连续 读 ， 但 是 却 消 除了 矩阵 4 的 非 连续 写 ， 从 而 节省 了 大 约 一 半 
(准确 地 说 是 5/11 ) 的 内 存 带 宽 (对 于 较 大 的 V)。 
实际 的 性 能 收益 ( 见 图 3-8“ flipped” 部 分 ) 虽然 
明显 ， 但 还 是 没有 达到 这 个 性 能 预期 。 一 个 可 能 2000 
的 原因 是 缺乏 一 个 对 于 非 连续 写 的 更 高 效 的 内 存 
接口 。 1500 

图 3-8 显示 的 性 能 图 在 某 些 点 看 起 来 非常 不 稳 
定 。 粗 略 看 来 ， 并 不 确定 是 否 是 某 些 N 值 导致 了 
明显 的 性 能 降低 ( 同 它 的 邻 值 比较 )。 然 而 ， 通 过 
仔细 分 析 (图 3-9 的 “vanilla” 部 分 ) 可 以 看 出 当 WO Ovanilla 
数组 维度 是 2 的 指数 倍 时 ， 对 性 能 是 非常 不 利 的 i O AA padded 
(基准 测试 程序 对 于 每 个 新 的 N 都 会 分 配合 适 大 小 
的 矩阵 )。 像 在 1.3.2 节 描 述 的 那样 ， 由 于 关联 性 9 1020 1024 1028 1032 
的 不 足 ， 当 连续 兴 代 命中 相同 的 cache 行 时 ， 非 连 
续 访 存 会 导致 性 能 “ 协 笋 ”。 图 3-7 非常 清楚 地 说 ”图 39 数组 维度 大 小 的 不 明智 选择 造成 的 
明了 当 和 矩阵 的 第 一 维 大 小 是 2 的 指数 倍 时 ， 转 置 cache 颠 艇 (虚线 ) : 矩阵 转 置 性 能 在 和 矩阵 大 
操作 是 非常 容易 发 生性 能 “ 颠 艇 ”的 。 对 于 大 小 小 为 1024*1024 时 显著 降低 。 通 过 padding 
为 C 并 且 直 接 映射 的 cache， 每 隔 C/N 次 迄 代 就 会 方法 使 第 一 维度 大 小 增 大 1 倍 可 完全 消除 其 
命中 相同 的 cache 行 。 对 于 大 小 为 到 的 cache 行 ， HE (52) 

有 效 的 cache 大 小 为 : 
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Con = Lmax (1, — (3-11) 


由 于 关联 性 的 限制 ， 这 是 实际 可 用 的 cache 大 小 。 对 于 一 个 m 路 组 关联 的 cache, E 
有 效 大 小 也 仪 仅 是 乘 以 m。 考 虑 一 个 真实 的 例子 : C= 2'7(1 MB), L.= 16, m=8, N= 
1024，Cer =2'' DPW (DP word，DP 字 )， 即 16 KB, W) NL. >>Cow， 其 性 能 应 该 和 值 很 
大 时 相似 。 

然而 ,一 个 简单 的 代码 变换 就 可 以 消除 性 能 “ 颠 艇 ”的 影响 : 假定 矩阵 的 大 小 为 
1024*1024， 将 第 一 维 的 大 小 增加 p (RA padding), 448] (1024+p, 1024) WAEREA, M 
而 导致 完全 不 同 的 cache 使 用 模式 。 如 果 Cm/N > Lep ( 见 图 3-10 )， 则 Lp 次 迭代 后 ， 
访问 地 址 属于 另外 一 组 m 个 cache 行 并且 没有 关联 性 冲突 。 当 将 第 一 维 的 大 小 增加 1 
时 ,图 3-9 显示 了 显著 的 效果 。 通 常 来 讲 ， 应 该 使 用 所 有 的 方法 使 数组 的 第 一 维 大 小 不 是 2 
的 指数 倍 。 不 同 的 维度 添加 不 同 大 小 的 padding 从 而 获得 最 优 性 能 是 非常 有 效 的 。 所 以 有 时 
可 应 用 一 个 经 验 法 则 : 尽量 将 数组 的 维度 修正 为 16 的 奇数 倍 。 
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图 3-10 padding 和 矩阵 转 置 的 cache 行 遍历 。 通 过 减少 关联 冲突 ，padding 可 能 会 增加 有 效 cache 
大 小 


应 用 和 矩阵 转 置 算法 的 更 进一步 优化 方法 将 在 下 面 的 章节 中 详细 讨论 。 


3.5 ”算法 分 类 和 访 存 优化 


在 基于 cache 的 处 理 器 上 ,许多 循环 的 优化 潜力 可 以 通过 观察 某 些 基本 参数 〈 像 数据 传 
输 、 算 术 运 算 和 问题 规模 的 伸缩 性 ) 很 容易 地 估算 出 来 。 从 而 进一步 确定 优化 的 努力 是 否 有 


3.5.1 O(N)/O(N) 


如 果 算 术 运 算 量 和 数据 传输 量 (加 载 / 写 入 ) 与 问题 规模 (或 者 “循环 长 度 ”) NN 成 比例 ， 
那么 优化 潜力 是 非常 有 限 的 。 标 量 乘 、 向 量 加 和 黎 跑 和 矩阵 问 量 乘 都 是 这 类 问题 的 典型 实例 。 
当 W 取 值 较 大 时 ， 其 性 能 不 可 避免 地 受 访 存 限制 ， 并 且 使 用 编译 右 生 成 的 代码 就 可 以 达到 
较 高 的 性 能 。 这 是 因为 O(N)/O(N) 循环 往往 很 简单 ， 正 确 的 软件 流水 策略 的 作用 非常 明显 。 
但 是 藤 套 循环 是 一 个 不 一 样 的 问题 (具体 见 下 面 的 分 析 )。 

然而 ， 即 使 循环 不 艇 套 ， 优 化 空间 还 是 经 常 存在 的 。 作 为 一 个 实例 ， 考 虑 下 面 的 向 量 加 
代码 : 


1 do i=1,N ! optimized 

2 A(i) = B(i) + C(i) do i=1,N 

3 循环 整合 A(i) = B(ai) + C{i) 

4 do i=1,N SSS ! save a load for B(i) 
5 Z(i) = B(i) + E(i) Z(i) = B(i) + E(i) 

6 enddo enddo 


左边 代码 的 每 一 个 循环 都 没有 优化 空间 。 每 个 循环 包含 两 次 数据 读 取 操 作 、 一 次 数据 写 
入 操作 和 一 次 加 法 操作 (没有 计算 写 分 配 )， 因 此 循环 代码 均衡 值 为 3/1。 然 而 ， 数 组 B 在 第 
二 个 循环 中 被 重新 加 载 了 一 次 ， 这 是 非常 没有 必要 的 : 将 两 个 循环 整合 为 一 个 ， 数 据 B 的 元 
素 就 可 以 只 被 读 取 一 次 ， 循 环 代码 平衡 值 降 为 5/2。 在 其 他 条 件 都 一 样 的 情况 下 ， 代 码 性 能 
( 访 存 受 限 ) 将 会 提高 6/5 (如 果 写 分 配 时 不 可 避免 ， 这 个 值 将 是 8/7 )。 

对 于 这 两 个 循环 来 说 ， 循 环 整 合 实现 了 O(N) 的 数据 重用 ， 减 少 了 一 个 数组 的 数据 读 取 
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操作 。 像 这 种 简单 情况 ， 编 译 器 一 般 会 自动 使 用 该 优化 方法 。 
3.5.2 O(N?)/O(N?) 


典型 的 循环 长 度 为 N UATE PA O(N’) 算术 运算 操作 和 O(N’) 数据 读 取 和 写 
入 操作 。 稠 密 和 矩阵 向 量 乘 、 和 矩阵 转 置 以 及 甜 阵 加 都 是 这 类 问题 的 典型 实例 。 尽 管内 层 循环 的 
情况 和 O(N)/O(N) 相似 ， 并 且 都 访 存 受 限 ,但 艇 套 却 开启 了 新 的 优化 空间 。 然 而 ， 优 化 又 一 
次 仅 限于 一 个 常数 因子 的 改善 。 考 虑 下 面 的 稠密 矩阵 癌 量 乘 ( Matrix-Vector Multiply, MVM) 
代码 : 


1 do i=1,N 

2 tmp = C(i) 

3 do j=1,N 

4 tmp = tmp + A(j,i) * B(j) 
5 enddo 

6 C(i) = tmp 

7 enddo 


上 面 代码 的 代码 平衡 值 为 1W/F (和 矩阵 4、B 两 次 数据 读 取 和 两 次 算术 运算 )。 数 组 C 由 
外 层 循环 变量 索引 ， 所 以 其 更 新 可 以 在 寄存 器 中 进行 (这 里 我 们 通过 使 用 标量 tmp 来 说 明 ， 
尽管 编译 器 可 以 自动 进行 这 些 转换 )， 从 而 不 计算 其 读 取 和 写 人 操作 。 和 矩阵 A 只 被 加 载 一 次 ， 
但 是 B 却 被 加 载 7 NUK ( 见 图 3-11， 外 层 循环 每 迭代 一 次 ，B 就 被 加 载 一 次 )。 我 们 可 以 采 
用 上 节 所 讲 的 循环 整合 方法 , 但 是 这 里 需要 整合 的 内 层 循环 有 NN 个 而 不 是 两 个 。 解 决 方案 
是 循环 展开 : 外 层 循环 间隔 m 遍历 ， 内 层 循 环 重复 m 次 。 我 们 必须 要 面 对 外 层 循环 长 度 不 
能 被 m 整除 的 情况 。 在 这 种 情况 下 ， 要 单独 处 理 剩 余 的 循环 。 





图 3-11 未 优化 的 稠密 矩阵 向 量 乘 (NxN), RHS 向 量 被 加 载 7N 次 


1 ! remainder loop 

2 do r=1,mod(N,m) 

3 do j=1,N 

4 C(x} = C) + Al5,r) è Bij) 
5 enddo 

6 enddo 

7 ! main loop 

8 do i=r,N,m 

9 do j=1,N 

0 C(i) = C(i) + A(j,i) * B45) 
1 


enddo 
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12 do j=1,N 


13 C(itl) = C(itl) + A(j,itl) * B(j) 
14 enddo 
15 ! m times 


17 do j=1,N 


18 C(i¢+m-1) = C(it+m-1) + A(j,it+tm-1) + B(j) 
19 enddo 
20 enddo 


“剩余 循环 ”可 以 采用 同 原始 循环 一 样 的 优化 方法 ， 但 这 不 重要 了 。 我 们 在 下 面 的 讨论 
中 将 忽略 这 些 “ 剩 余 循 环 ”。 

仅 应 用 外 层 循环 展开 方法 ， 除 了 代码 膨胀 外 我 们 什么 也 没有 得 到 。 然 而 ， 现 在 可 以 非常 
容易 地 使 用 循环 整合 方法 了 : 


! remainder loop ignored 
do i=1,N,m 


1 
2 

3 do j=1,N 

4 C(i) = C(i) + A(j,i) + B(j) 

5 C(it+l) = C(i+l) + A(j,i+1) * B34) 

6 ! m times 

T b.a 

8 C(i+m-1) = C(i+m-1) + A(j,i+m-1) * B(j) 
9 enddo 

10 enddo 


将 外 层 循环 展开 ， 然 后 整合 通常 称 为 展开 与 合并 (unroll and jam). m 路 展开 与 合并 实 
现 了 寄存 器 中 B 每 个 元 素 的 m 次 复 用 ， 代 码 平衡 值 减 小 为 (m+1)/2m。 当 m >> 1 时 ,该 值 
显然 小 于 1。 如 果 m 取 值 非常 大 ， 由 于 B 加 载 的 次 数 大 为 减少 ， 因 此 可 获得 接近 两 倍 的 性 
能 提升 。 在 理想 情况 下 ，B 只 需 加 载 一 次 。 因 为 4 (大 小 为 N*) 只 需 加 载 一 次 ，m 路 展开 
与 合并 的 总 数据 传输 量 为 N*(1+1/m)+N。 图 3-12 显示 了 两 路 展开 的 稠密 矩阵 问 量 乘 的 访 存 
模式 。 





图 3-12 ”两 路 寄存 需 展 开 的 稠密 矩阵 向 量 乘 算法 。 重 加 载 RHS 向 量 造成 的 数据 
冲突 被 大 约 降低 了 一 半 ， 剩 余 的 循环 在 外 层 调用 本 例 


然而 ， 所 有 这 一 切 都 假设 寄存 需 的 压力 不 会 太 大 。 即 假设 CPU 有 足够 多 的 寄存 器 来 
容纳 循环 体内 部 数量 相当 可 观 的 操作 数 。 如 果 不 能 ， 编 译 右 必须 溢出 寄存 器 数据 到 cache 
中 ， 这 样 会 降低 计算 性 能 (I 2.4.5 节 )。 再 一 次 强调 ， 可 用 的 编译 日 志 可 以 帮助 确定 这 种 
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循环 展开 与 合并 在 高 级 别 优化 上 可 由 有 些 编译 器 自动 实现 。 一 个 复杂 的 循环 体 可 能 会 隐 
藏 一 些 重要 的 优化 信息 ， 因 此 手工 优化 是 必需 的 : 通过 手工 优化 或 者 编译 器 指令 来 指定 像 特 
环 展开 等 高 级 别 转换 。 如 果 可 用 ， 编 译 器 指令 是 首要 选择 的 优化 方法 。 这 是 因为 指令 比较 容 
易 维 护 且 不 会 导致 明显 的 代码 膨胀 。 可 惜 的 是 ， 编 译 器 指令 本 质 上 是 不 可 移植 的 。 

尽管 同 稠密 和 矩阵 向 量 乘 相 比 ， 上 节 所 讨论 的 矩阵 转 置 算法 没有 直接 机 会 优化 数据 传输 
(两 个 矩阵 只 需 读 写 各 一 次 )， 该 算法 同样 是 ONON) 问题 的 典型 实例 。 通 过 在 矩阵 转 
置 算法 的 “flipped” 版 本 上 应 用 循环 展开 与 合并 方法 ， 得 到 了 将 近 50% 的 性 能 提升 ( 参 
见 图 3-8 的 虚线 )。 
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A(i, j#m-1) = B(j+m-1,1) 

不 要 期 望 m = 4 时 会 有 明显 效果 ， 因 为 基本 性 能 分 析 没 有 发 生变 化 : 当 N 取 值 中 等 时 ， 
可 用 的 cache 行 数 目 足 够 可 以 容纳 Le 列 数据 。 图 3-13 显示 了 m= 2 的 情况 。 每 一 次 加 载 操 
作 中 ，cache 行 中 的 m 个 元 素 可 以 连续 访问 。 因 此 ， 尽 管 TLB 依然 太 小 而 不 能 映射 到 整个 
工作 集 ， 但 还 是 减少 了 TLB 未 命中 。 






图 3-13 ”和 矩阵 转 置 “flipped” 版 本 的 两 路 循环 展开 (例如 ,原始 版 本 的 跨 距 加 载 ) 


尽管 如 此 ， 当 NN 取 值 较 大 从 而 使 cache PRERA NA cache 行 的 数据 时 ,减少 TLB 未 
命中 并 不 能 阻止 性 能 的 下 降 。 最 好 能 有 一 个 策略 重用 非 连续 cache rR F AY Lom 个 元 素 ， 
从 而 使 cache 行 可 以 很 快 替 换 出 去 而 不 需要 再 次 加 载 。 一 个 “野蛮 ”方法 是 工 .路 循环 展开 ， 
但 是 这 个 方法 会 导致 写 操作 时 更 大 间隔 的 非 连续 访问 。 同 时 ， 由 于 循环 展开 因子 过 大 ， 导 致 
循环 体 中 寄存 右 使 用 量 的 增加 (算术 操作 引起 的 )， 因 此 这 并 不 是 一 个 通用 的 优化 方法 。 御 
Arik (loop blocking) 能 够 在 不 增加 寄存 需 使 用 的 情况 下 实现 cache 的 最 优 使 用 。 该 方法 





不 会 减少 数据 读 取 或 者 写 信 操作， 但 是 会 增加 cache 的 命中 率 。 对 于 深度 为 4 的 能 套 循环 ， [82] 


分 块 引 入 了 a 个 额外 的 外 层 循环 ， 将 原来 的 内 层 循环 切 分 成 块 : 


| do jj=1,N,Db 
jstart=jj; jend=jj+b-1 
3 do ii=1,N,b 
4 istart=ii; iend=ii+tb-1 
5 do j=jstart, jend,m 
6 do i=istart,iend 
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7 a(i,j) = b(j,i) 

8 a(i,j+1) = b(j+1,i) 

9 ET 

10 a(i; j+m-1) = b(jtm-1, i) 
11 enddo 

12 enddo 

13 enddo 


14 enddo 

TEIX TAF, Rm 路 的 循环 展开 与 合并 外 ,使 用 了 二 维 分 块 (分 块 因子 为 5b) 方法 。 
这 个 变化 并 没有 改变 主 循环 体 ， 因 此 并 没有 改变 保存 操作 数 的 寄存 器 数目 。 然 而 ， 却 极 大 改 
进 了 cache 行 的 访 存 模式 ， 如 图 3-14 所 示 ， 两 路 循环 展开 与 4*+4 分 块 的 结合 。 如 果 分 块 因 
子 选择 恰当 ， 那 么 非 连 续 写 操作 中 的 cache 行将 会 在 每 一 个 分 块 的 最 后 得 到 充分 利用 ， 而 且 
会 快速 地 置换 出 去 。 因 此 ,NN 取 值 较 大 时 的 性 能 下 降 现象 将 不 复 存 在 。 图 3-8 的 虚线 说 明了 
50*50 的 分 块 结合 4 路 循环 展开 消除 了 非 连 续 内 存 访问 带 来 的 所 有 访 存 问题 。 
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图 3-14 和 矩阵 转 置 算法 “flipped” 版 本 应 用 4*4 的 分 块 和 两 路 循环 展开 的 优化 方法 


循环 分 块 是 非常 普遍 和 强大 的 优化 方法 ， 并 且 编 译 器 不 会 自动 执行 。 最 佳 分 块 因子 应 该 
通过 精心 的 基准 测试 实验 获得 。 然 而 ，cache 的 大 小 也 可 以 指导 最 佳 分 块 因子 的 选择 。 即 ， 
当 对 L1 cache 分 块 时 ， 内 层 循环 中 所 有 分 块 的 大 小 总 和 不 应 该 超过 cache 大 小 的 一 半 。 究 竟 
对 哪 一 级 cache 进行 分 块 依赖 于 具体 的 算术 操作 ， 这 里 没有 通用 的 指导 建议 。 


3.5.3 O(N*)/O(N?) 


如 果 算 术 计 算 量 随 着 问题 规模 的 扩大 以 一 定 的 因子 增长 而 大 于 访 存 数据 量 ， 那 么 这 类 
算法 具有 巨大 的 优化 空间 。 通 过 上 述 优化 技术 (循环 展开 与 合并 、 循 环 分 块 ) 的 使 用 ， 这 
类 算法 性 能 可 能 不 会 受 cache Rilo HAREE ON VON’ 特征 ， 笛 密 和 矩阵 矩阵 乘 
( Matrix-Matrix Multiplication, MMM) 和 稠密 矩阵 对 角 化 是 这 类 算法 的 典型 实例 。 开 发 一 个 
精心 优化 的 MMM 程序 已 经 超过 了 本 书 的 范围 ， 更 不 用 说 特征 值 计算 。 但 是 我 们 可 以 通过 
一 个 简单 的 实例 (实际 ON VON) 类 型 ) 来 说 明 这 类 算法 优化 的 基本 原理 。 


1 do i=1,N 

2 do j=1,N 

3 sum = sum + foo(A(i),B(j)) 
4 enddo 

5 enddo 


上 面 代码 的 数据 集 大 小 为 O(N), 但 是 却 进行 了 O(N?) 运算 (额外 调用 了 foo0 函数 )。 


其 中 B 从 内 存 中 被 加 载 7N 次 ,所 以 总 存 数据 传输 量 为 NN+1)。 使 用 m 路 循环 展开 与 合 
并 优化 方法 后 ， 可 将 其 减少 到 N(N/m+1)。 但 是 循环 展开 因子 过 大 的 缺点 在 上 市 中 已 经 指出 。 
而 内 层 循环 的 分 块 (分 块 大 小 为 b») 有 两 个 作用 : 

ı do jj=1,N,b 

2 jstart=jj; jend=jj+b-1 

3 do i=1,N 

4 do j=jstart, jend 

5 sum = sum + foo(A(i),B(j)) 

6 enddo 


enddo 
enddo 


a B 从 内 存 中 仅 加 载 一 次 ， 可 使 b 足够 小 以 使 5 个 元 素 可 以 加 载 到 cache 中 ， 直 到 不 需 
要 它们 为 止 。 

D A 加 载 N/b 次 ， 而 不 是 一 次 。 

尽管 4 通过 cache 被 加 载 了 Nb 次 , 但 当前 B 分 块 被 置换 出 cache 的 可 能 性 非常 低 。 这 
是 因为 根据 LRU 置换 算法 ， 当 该 cache 行 被 频繁 使 用 时 是 不 会 被 置换 出 去 的 。 这 使 得 内 存 
传输 非常 高 效 : 共 传 输 和 N(N/b+1 ) 个 字 。 因 为 b 的 取 值 可 以 比 典型 循环 展开 因子 大 许多 ， 所 
以 分 块 是 最 好 的 优化 策略 。 此 外 ， 循 环 展开 与 合并 方法 依旧 可 以 用 来 增加 cache 内 部 (in- 
cache) 的 代码 平衡 值 。 基 本 的 N 依赖 还 是 存在 的 ， 但 是 结合 前 因子 可 以 说 明 内 存 受 限 和 
cache 受 限 程序 的 差异 。 当 内 存 带 宽 和 访 存 延迟 不 是 性 能 限制 因素 时 ， 该 代码 是 cache 受 限 
的 。cache 受 限 代码 在 特定 架构 上 能 否 达 到 预期 性 能 目标 依赖 于 cache 大 小 、cache 和 内 存 间 
的 数据 传输 速度 ， 当 然 还 有 算法 本 号。 

ON VOIN’) 算法 是 经 过 精心 优化 、 其 性 能 可 以 接近 硬件 理论 峰值 性 能 的 典型 候选 算 
法 。 如 果 循 环 分 块 和 展开 因子 选择 恰当 ， 则 对 于 Nx 的 矩阵 C NPE Sh), 
密 和 矩阵 向 量 乘 的 性 能 经 常会 达到 峰值 性 能 的 90%。 系 统 厂 商会 提供 该 算法 的 高 度 优 化 版 本 ， 
一 般 包 含 在 BLAS (Basic Linear Algebra Subsystem， 基 本 线性 代数 子 系统 ) 库 中 。 既 然 循环 
分 块 已 经 完成 了 将 代码 转化 为 cache 受 限 的 绝 大 部 分 重要 工作 ， 为 什么 还 要 应 用 循环 展开 方 
法 ? 这 是 因为 即使 所 有 的 数据 都 位 于 cache 中 ,但 许多 人 处理 器 架构 在 每 个 时 钟 周期 内 也 不 能 
持续 维持 足够 的 加 载 和 写 入 操作 来 满足 算术 运算 的 需要 。 例 如 ， 当 前 英特尔 的 x86 架构 处 理 
妖 每 个 时 钟 周期 内 只 能 进行 一 次 数据 加 载 和 一 次 写 人 操作 ， 这 就 使 得 当 内 核 的 循环 媒 套 使 用 
多 于 一 个 数据 加 载 操作 时 (特别 是 上 例 中 ONON) 算法 的 cache 受 限 分 块 )， 就 需要 使 用 
循环 展开 与 合并 方法 。 

这 里 的 讨论 是 出 于 教育 目的 ， 因 此 没有 必要 手工 编写 和 优化 标准 线性 代数 和 和 矩阵 操作 。 
这 些 函 数 一 般 总 是 从 高 度 优化 的 函数 库 中 调用 。 尽 管 如 此 ， 这 里 讨论 的 优化 方法 是 能 够 应 用 
到 许多 实际 代码 中 去 的 。 稀 玖 矩阵 问 量 乘 就 是 一 个 有 趣 的 例子 ( 见 3.6 节 )。 


3.6 ”案例 分 析 : Mite ee] Se 


ETT HE BY Fi Bit Ae [ee] E HE EFA BA St ER AFP ETT KA — SSE. PKA 
大 多 数 和 迭代 和 抢 阵 对 角 化 算法 (Lanczos, Davidson, Jacobi-Davidson) 的 重要 部 分 ， 而 且 经 常 
会 成 为 性 能 限制 因素 。 当 和 矩阵 的 非 零 元 素数 量 N 随和 矩阵 行 数 N, 的 增加 而 线性 增长 时 ， 这 个 
矩阵 称 为 稀 朴 矩阵 。 出 于 效率 方面 的 考虑 ， 内 存 中 只 存储 稀 朴 矩阵 的 非 零 元 素 。 因 此 ， 稀 政 
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MVM (sMVM) 是 一 个 O(N,)/O(N,) 问题 ， 并 且 当 N, 取 值 非常 大 时 ， 该 算法 是 访 存 受 限 的 。 
尽管 如 此 ， 循环 散 套 使 算法 具有 显著 的 优化 潜力 。 图 3-15 所 示 的 SMVM 算法 中 ， 尽 管 和 矩阵 
的 访 存 模式 是 非常 有 利 的 ， 但 是 RHS 向 量 经 常 是 非 连续 访问 甚至 是 间接 寻 址 的 。 下 面 章节 
将 会 进行 不 失 一 般 性 的 讨论 。 





图 3-15 稀 玖 矩阵 向 量 乘 。 图 中 黑色 元 素 值 只 更 新 一 个 LHS oR. BRAEMAR TT 
个 和 最 后 一 个 非 零 元 素 间 没 有 间隔 ， 和 否则 RHS 向 量 的 间接 寻 址 是 不 可 避免 的 


3.6.1 FEAE RERI TFE ANL 


ERA BP fa tit Fe ES ee IL ell, HEAL R EA AA EEN ERE [N49]. N 
存 的 访问 模式 和 SMVM 的 性 能 特征 严重 依赖 于 所 使 用 的 存储 机 制 。CRS (Compressed Row 
Storage， 压 缩 行 存储 ) 和 JDS (Jagged Diagonals Storage, 锯齿 对 角 线 存储 ) 是 目前 两 个 最 
重要 也 是 最 常用 的 存储 机 制 。 下 面 的 讨论 中 ， 我们 将 会 看 到 : CRS 适合 基于 cache 的 微 处 理 
AR, M IDS 则 支持 依赖 和 循环 结构 ， 该 结构 非常 适用 于 向 量化 系统 。 

CRS 存储 机 制 使 用 长 度 为 Na 的 数组 val 存储 和 矩阵 所 有 的 非 零 元 素 ( 按 行 存储 ， 且 元 素 
间 没 有 间隔 )。 所 以 必须 提供 两 个 额外 的 整 型 数组 来 指定 数组 val 元 素 在 原 和 矩阵 中 所 属 的 行 、 
列 : 长 度 为 No 的 数组 col_idx 和 长 度 为 N, 的 数组 row_ptr。 前 者 存储 了 每 个 非 零 元 素 所 属 
的 列 ， 后 者 存储 了 每 行 开 始 的 索引 (使 用 非 零 元 素 在 val 数组 的 下 标 ) (参见 图 3-16 )。 使 用 
该 存储 机 制 完 成 MVM 的 初始 代码 非常 简单 : 
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图 3-16 CRS FRIE EEE ie sh 
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1 do i = 1,N 

2 do j = row ptr (i), row_ptr(itl) = 1 

3 C(i) = C(i) + val(j) * B(col_idx(j)) 
4 enddo 

5 enddo 


下 面 几 点 需要 引起 注意 : 
口 外 层 循环 迭代 次 数 非常 多 《迭代 次 数 为 Wo)。 
口 相对 于 一 般 微 处 理 器 架构 的 流水 线 长 度 ， 内 存 循 环 迭 代 次 数 可 能 会 比较 少 。 
O 向 量 C 的 访 存 已 经 高 度 优化 了 : 只 从 内 存 中 加 载 一 次 。 
O 数组 val 中 非 零 元 素 的 访 存 是 连续 的 。 
O 同期 望 的 一 样 ，RHS 向 量 B 的 访 存 模式 为 间接 地 址 映射 。 然 而 ， 依 赖 于 和 矩阵 结构 ， 
这 可 能 不 是 一 个 严重 的 性 能 问题 。 如 果 非 零 元 素 主 要 集中 在 对 角 线 周围 ， 则 甚至 会 
有 明显 的 空间 和 时 间 局 部 性 。 
T B, = 5/4 W/F (如 果 col idx 是 4 字 节 整 型 )。 因 为 cache 行 的 部 分 使 用 忽略 了 可 能 的 
大 规模 的 数据 传输 。 
其 中 有 些 点 当 我 们 后 面 演 示 并 行 SMVM 时 (参见 7.3 节 ) 将 很 重要 。 
IDS 不 仅 要 完成 矩阵 元 素 的 消 零 ， 还 需 对 和 矩阵 元 素 进 行 重新 组 织 。 首 先 ， 移 除 矩 阵 中 所 
有 的 零 元 素 并 将 非 零 元 素 移 到 左边 ; 其 次 将 和 抢 阵 行 按照 非 零 元 素 的 数目 排序 ， 使 非 零 元 素 最 
多 的 行 位 于 矩阵 顶端 ， 非 零 元 素 最 少 的 行 位 于 矩阵 底部 。 移 阵 行 排序 操作 同时 也 生成 置换 映 
射 数 组 并 存储 在 长 度 为 N. 数 组 perm 中 ; 最 后 ， 将 和 矩阵 的 非 零 元 素 按 列 存 储 在 数组 val 中 。 
这 些 列 也 称 为 锯齿 对 角 线 (jagged diagonal， 从 原始 稀 焉 和 矩 阵 的 左上 部 遍历 到 在下 部 ， 人 参见 
图 3-17 ) 。 每 一 个 非 零 元 素 在 原 和 矩阵 的 列 索 引 像 CRS 一 样 存储 在 数组 col_idx 中 。 为 使 RHS 
和 LHS 向 量 元 素 的 顺序 相同 ，col idx 数组 根据 置换 映射 数组 重新 生成 。 数 组 jd_ptr 保存 了 
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3-17 JDS Freie ENL. NAS | AAT T E (permutation map) 技术 。 图 中 
标记 了 其 中 一 个 锯齿 对 角 线 
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第 N 条 锯齿 对 角 线 的 起 始 索 引 。 采 用 IDS 存储 机 制 的 sMVM 的 基本 实现 代码 只 比 采 用 CRS 


稍微 复杂 一 点 : 
1 do diag=1, Nj 
2 diagLen = jd_ptr(diag+1l) - jd_ptr (diag) 
3 offset = jd_ptr(diag) - l 
4 do i=l, diagLen 
5 C(i) = C(i) + val(offset+i) + B(col_idx (offset+i) ) 
6 enddo 
7 enddo 


数组 perm 在 这 里 没有 被 用 到 ; 通常 情况 下 ， 所 有 sMVM 操作 都 需要 在 置换 空间 内 完 

这 个 循环 有 以 下 值得 注意 的 属性 : 

口 内 层 循 环 的 迭代 次 数 非常 多 ， 且 互相 没有 依赖 。 对 于 回 量 处 理 句 来 说 ，JDS 是 比 
CRS 更 好 的 数据 存储 机 人 制 。 

口 外 层 循环 迭代 次 数 较 少 (锯齿 对 角 线 的 数目 )。 

O 结果 向 量 从 内 存 中 被 加 载 多 次 (至 少 是 部 分 向 量 )， 所 以 这 里 可 能 有 比较 大 的 优化 空间 。 

a 数组 val 中 的 非 零 元 素 是 连续 访 存 的 。 

QO 同 CRS 一样 ，RHS 向 量 访 存 为 间接 地 址 上 映射。 虽然 一 个 良好 的 矩阵 布局 是 使 用 直 对 
角 线 而 不 是 压缩 行 ， 但 上 述 的 注释 依然 可 用 。 作 为 额外 的 复杂 度 ， 和 矩阵 行 和 RHS 向 
量 都 被 置换 了 。 

口 B.= 9/4 W/F (如 果 col idx 是 4 字 节 整 型 ) 。 

从 代码 平衡 值 来 看 ，sMVM 似乎 更 倾向 于 CRS。 


3.6.2 JDS sMVM 优化 


JDS sMVM 要 用 到 循环 展开 与 合并 技术 ， 但 是 这 个 技术 需要 内 层 循 环 的 长 度 独立 于 外 


层 循环 索引 。 不 幸 的 是 ， 锯 齿 对 角 线 一 般 不 会 具有 相同 的 长 度 ， 违 反 了 这 个 条 件 。 然 而， 
一 个 称 为 循环 剥离 (loop peeling) 的 技术 可 解决 这 个 问题 ， 对 于 m 路 的 循环 展开 ,分割 成 
m xx 个 块 ， 剩 下 的 少 于 天 -1 个 对 角 线 可 单独 处 理 (参见 图 3-18， 像 往常 一 样 剩余 循环 被 


忽略 )。 


ı do diag=1,Nj;,2 ! two-way unroll & jam 
2 diagLen = min( (jd_ptr(diag+1)-jd_ptr(diag)) ,\ 
(jd_ptr (diag+2)-jd_ptr(diagtl)) ) 


3 

4 offsetl = jd_ptr (diag) - 1 

5 offset2 = jd_ptr(diagtl) - 1 

6 do i=l, diagLen 

7 C(i) = C(i)t+val (offsetl+i)*B(col_idx (offsetl1+i) ) 

8 C(i) = C(i)t+tval(offset2+i) *B(col_idx (offset2+i) ) 
enddo 

10 ! peeled-off iterations 


1 offseti = jd_ptr (diag) 

12 do i=(diagLen+1), (jd ptr (diag+1)—jd_ptr (diag) ) 

13 c(i) = c(i)+val (offset1+i)*b(col_idx(offset1+i) ) 
14 enddo 

1s enddo 


(Bere BA IE ACE Ta) EAT AZ ANT, M m 路 循环 展开 与 合并 将 代码 平衡 值 降低 为 : 


B.=| 一 + 于 W/F 


WR m 取 值 足够 大 ， 则 IDS 代码 平衡 值 就 会 接近 于 CRS。 然 而 ， 如 之 前 讨论 的 那样 ， 
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较 大 的 产值 会 导致 寄存 器 使 用 量 的 增多 ， 因 此 这 一 做 法 并 不 总 是 可 取 。 通 常情 况 下 ， 一 个 
合理 的 循环 展开 结合 分 块 方法 可 以 用 来 减少 内 存 数 据 传输 ， 同 时 提高 cache 内 部 性 能 。 循 环 
分 块 方法 对 于 JDS sMVM 来 说 也 适用 (ILAI 3-19 ): 


! loop over blocks 
do ib=1, Nr, b 
block_start = ib 
block_end = min(ib+b-1, Nr) 
! loop over diagonals in one block 
do diag=1, Nj 
diagLen = jd_ptr (diag+1)-jd_ptr (diag) 


w2 ~y A WW Pw N ~ 


offset = jd_ptr (diag) - 1 
9 if (diagLen .ge. block_start) then 
10 ! standard JDS sMVM kernel 
11 do i=block_start, min (block_end,diagLen) 
12 B(i) = B(i)+val (offset+i) *B(col_idx (offset+i)) 
13 enddo 
14 endif 
15 enddo 
16 enddo 





图 3-18 ”使 用 两 路 循环 展开 与 合并 和 循环 剥离 图 3-19 ”使 用 4 路 循环 分 块 的 JDS 矩阵 遍历 
方法 的 IDS 和 矩阵 遍历 。 被 剥离 的 迭代 被 标记 出 来 


应 用 这 个 优化 方法 ， 当 分 块 大 小 b 取 值 不 太 大 时 ， 结 果 疝 量 只 需 从 内 存 中 加 载 一 次 。 尽 
管 代 码 平衡 值 没 有 发 生变 化 ， 但 此 时 应 该 能 够 获得 同 CRS 相近 的 性 能 。 同 之 前 论述 的 稠密 
矩阵 转 置 一 样 ， 和 矩阵 分 块 并 没有 优化 寄存 融 的 重用 而 是 优化 了 cache 的 利用 率 。 
图 3-20 显示 了 CRS 与 JDS sMVM (原始 、 两 路 循环 展开 、 大 小 为 400 的 分 块 ) 在 三 个 
不 同人 硬件 平台 上 的 性 能 对 比 。 测 试 矩 阵 来 源 于 固态 物理 学 ( 半 填 充 情 形 下 六 角 一 维 Holstein- 
Hubbard 模型 ) CRS 似乎 更 适用 于 标准 AMD 和 英特尔 微 处 理 器 。 这 并 不 奇怪 ， 因 为 它 不 
需要 手工 优化 就 具有 最 低 的 代码 平衡 值 ， 并 且 迭 代 次 数 较 少 的 内 层 循环 比较 适合 具有 乱 序 执 
行 能 力 的 CPU。 然 而 ， 采 用 EPIC 架构 的 英特尔 Itanium2 Xb PERE [V113] 对 于 CRS 来 说 性 能 
表现 平平 ， 但 在 分 块 的 JDS 版 本 中 ， 其 性 能 最 高 。 因 为 缺乏 乱 序 处 理 能 力 ， 编 译 器 虽然 检 
| WB AVE TA ta SST, BARER ITH wind-down 阶段 和 另 一 行 的 wind-up 阶 
段 ， 所 以 这 个 架构 不 能 很 好 应 付 CRS 中 的 短 循环 。 当 工作 集 可 以 加 载 到 cache 中 时 ， 这 个 
效果 会 更 加 明显 [056]. 
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图 3-20 采用 不 用 优化 方法 的 SMVM 性 能 对 比 图 。 选 取 了 包含 1.7 x 10’ 个 元 素 和 20 条 锯齿 的 


和 矩阵。 对 于 不 同 的 硬件 染 构 来 说 ,分 块 大 小 为 400 被 证 明 是 最 优 的 


习题 


3.4 


3.2 


3:3 


3.4 


FERDA. WR PRA TRA A EARR, 3.1 节 中 介绍 的 代码 平衡 值 和 
lightspeed 应 如 何 修改 ? 对 于 一 个 间隔 为 s 的 向 量 操作 ， 可 以 期 望 什么 样 的 性 能 特征 ? 


1 do i=l,N,s 
2 A(z) = B(i) + C(3) +» D2) 
3 enddo 


平衡 值 的 乐趣 。 计 算 下 面 循环 内 核 的 代码 平衡 值 ， 假 定 所 有 数组 都 需要 从 内 存 中 加 载 ， 并 且 忽 略 
访 存 延 迟 的 影响 〈 超 过 计数 变量 1 和 j 的 循环 行为 是 默认 的 )。 

(a) Y(j) = Y(j) + AG,j) * BO GERE HER) 

(b) s = s + A(i) * A(ì) (M EWE% 

(c) s = s + A(i) * B(i) RE ) 

(d) s=s+A(i)* B(K(i))( 带 间接 访问 的 标量 乘 ) 

除数 组 K 存储 4 字 节 的 整 型 数 外 ， 所 有 数组 都 是 双 精 度 浮 点 类 型 。s 是 一 个 双 精 度 标量 。 根 据 理 
论 峰 值 带宽 和 STREAM 实测 带宽 ( MFlop/s)， 计 算 这 些 内 核 在 Xeon 5160 处 理 器 单 核 和 1.6 节 描 
述 的 原型 向 量 处 理 器 上 的 期 望 性 能 。Xeon CPU 的 cache 行 长 度 为 64 个 字 节 。 可 以 假设 和 NW 足够 大 
从 而 使 数组 不 能 全 部 加 在 到 cache 中 。 对 于 (d)， 请 给 出 在 Xeon 处 理 器 上 最 好 和 最 坏 的 情形 。 
性 能 预测 。 未 来 主流 微 处 理 器 架构 的 SIMD 能 力 将 会 得 到 极 大 增强 。 其 中 一 个 可 能 的 特征 是 x86 
处 理 需 将 能 够 在 长 度 为 256 位 (而 不 是 128 位 ) 的 寄存 器 上 执行 乘法 和 加 法 指令 ， 也 就 是 说 可 同 
和 对 执行 4 个 双 精 度 浮 点 数 的 运算 。 这 将 会 有 效 提高 峰 性 能 至 两 倍 ， 如 果 L1 cache 带宽 也 提高 两 
倍 ， 那 么 每 个 时 钟 周 期 执行 的 操作 数 将 从 4 次 提高 到 8 次 。 假 定 其 他 参数 如 内 存 带 宽 和 时 钟 性 能 
保持 不 变 ， 那 么 与 当前 英特尔 “ Core i7”( 有 效 基 于 STREAM 的 机 器 平衡 值 为 0.12W/F) 单 核 性 
能 相 比 ， 评 估 可 以 得 到 的 性 能 提升 。 假 定 一 个 完美 的 SIMD 向 量 应 用 程序 ， 其 60% 的 计算 时 间 
代码 平衡 值 为 0.04 W/F, 40% 的 计算 时 间 代 码 平衡 值 为 0.5 W/F。 如 果 厂 商 选择 大 力 提升 CPU 的 
SIMD 能 力 ， 例 如 ， 引 进 更 长 长 度 的 向 量 。 在 这 种 情况 下 ， 什 么 会 成 为 限制 性 能 的 绝对 因素 。 
优化 三 维 Jacobi 算法 。 概 括 3.3 节 介 绍 的 二 维 Jacobi 算法 ， 并 考虑 三 维 算法 。 变 换 内 存 循环 的 长 
度 ， 你 会 期 望 性 能 特征 的 哪些 改变 (图 3-6 ) ? 参考 3.4 节 介绍 的 稠密 矩阵 转 置 算法 的 优化 ， 你 能 
否 得 出 消除 性 能 下 降 的 方法 ? 


a 


3.6 


3.7 


3.8 
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重新 审视 内 存 循 环 展 开 。 到 目前 为 止 ， 我 们 遇 到 内 存 循环 展开 的 可 能 性 仅 存在 于 软件 流水 和 
SIMD 优化 中 (参见 第 2 章 )。 内 存 循环 展开 在 很 多 情况 下 是 否 也 能 够 改进 代码 平衡 值 ? 通过 内 层 
循环 展开 提升 Jacobi 算 子 性 能 需要 考虑 哪些 方面 ? 
不 能 循环 展开 ? 考虑 下 面 的 下 三 角 和 矩阵 向 量 乘 代码 : 


1 do r=1,N 

2 do c=1,r 

3 Y(T) = y{z) + ale, f) * x(c) 
4 enddo 

5 enddo 


能 否 用 展开 并 合并 技术 作用 于 外 层 循 环 (参见 3.5.2 节 ) 来 减少 代码 平衡 值 ? 尝试 编写 上 面 代 码 的 
四 路 展开 版 本 。N 没有 特定 的 假设 (除了 NN BU AE), WEA 下 三 角 (包括 对 角 线 ) 之 外 的 所 
有 元 素 都 不 能 访问 。 

应 用 程序 优化 。 对 于 下 面 的 代码 ， 你 建议 用 什么 优化 策略 ? 尝试 修改 下 面 代 码 ， 使 其 能 够 达到 最 
高 性 能 。 


1 double precision, dimension(N,N) :: mat,s 

2 double precision :: val 

3 integer :: i,j 

4 integer, dimension(N) :: v 

5 ! ... V and s may be assumed to hold valid data 
6 do i=1,N 

7 do j=1,N 

8 val = DBLE (MOD (v(i),256) ) 

9 mat (i,j) = s(i,j)* (SIN (val) *SIN (val) -COS (val) *COS (val) ) 
10 enddo 
1 enddo 


对 于 NN 没有 任何 假设 。 然 而 ,你 可 以 假设 这 是 一 段 会 被 频繁 调用 的 子 程序 ，s 和 v 在 不 同 的 调用 
中 可 能 会 发 生变 化 ， 且 v 的 所 有 元 素 都 为 正 值 。 

TLB 的 影响 。 即 使 最 现代 的 处 理 器 ， 也 没有 足够 大 的 快 表 可 以 存储 驻 留 在 外 层 cache 上 所 有 内 
存 页 面 的 映射 。 为 什么 TLB 会 如 此 小 ? 这 难道 不 是 一 个 设计 中 的 性 能 瓶颈 吗 ? 使 用 大 页 有 什么 
好 处 ? 
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Introduction to High Performance Computing for Scientists and Engineers 


并 行 计 算 机 





所 谓 的 并 行 计算 即 许多 “计算 单元 ”( 或 核 ，core) 协调 解决 同一 个 问题 。 所 有 现代 超级 
计算 机 体系 结构 非常 依赖 并 行 结构 ， 并 且 在 CPU 的 数量 越 来 越 多 。Top 500 通常 用 来 评价 超 
级 计算 机 的 速度 [W121]， 它 是 基于 LINPACK 基准 测试 集 上 的 性 能 数据 为 并 行 计算 机 排序 ， 
每 年 发 布 两 次 。LINPACK 可 以 解决 未 指定 大 小 的 稠密 线性 方程 组 系统 ， 由 于 其 只 针对 于 单 
体系 结构 峰值 性 能 方面 的 测试 ， 因 而 不 是 一 个 被 广泛 接受 的 指标 。 也 有 一 些 其 他 的 替代 品 ， 
如 HPC 挑战 基准 测试 集 [W122], {He LINPACK 提供 了 高 效 的 开源 代码 ， 简单 易 用 ， 所 以 
近 20 年 一 直 作 为 Top 500 排序 主要 使 用 的 基准 测试 集 。Top 500 仍然 是 超级 计算 发 展 趋 努 的 
一 个 重要 指标 。 从 Top 500 中 超级 计算 机 系统 的 处 理 需 数量 〈 见 图 4-1 ) 可 以 清晰 地 看 到 超 
级 计算 机 的 趋势 : 顶级 线性 APC 系统 的 性 能 不 再 只 是 依赖 摩尔 定律 ， 而 并 行 性 变 得 越 来 越 
重要 。 近 年 来 由 于 多 核 处 理 器 的 问世 加 速 了 这 一 趋势 ， 最 新 的 Top 500 中 已 经 不 再 有 单 核 系 
统 (可 以 参考 1.4 节 )。 当 然 ， 我 们 提供 的 是 目前 并 行 计 算 机 技术 的 不 完全 介绍 ， 可 以 参考 由 
Van der Steen 和 Dongarra 定期 更 新 的 “Overview of recent supercomputers” [W123]. 
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图 4-1 1999 年、2004 年 和 2009 年 Top 500 列表 中 系统 和 核 的 数量 。 十 年 中 CPU 的 平均 数量 
增加 了 50 倍 。2004 一 2009 年 ， 多 核 芯 片 的 出 现 导致 了 核 数量 的 戏剧 性 增长 。 数 据 来 
自 [W 121] 


本 草 将 介绍 两 种 基本 的 并 行 计算 机 : 共享 内 存 和 分 布 式 存储 类 型 。 两 种 都 要 使 用 处 理 器 
或 者 更 一 般 的 说 是 “计算 元 素 ” 之 间 的 通信 和 网络。 因此 我 们 也 将 概述 基本 通信 和 网络 的 设计 规 
则 和 性 能 特点 。 


nm 


41 并 行 计 算 模 式 分 类 


在 并 行 架构 中 ， 一 种 广泛 使 用 的 分 类 标准 是 Flynn 提出 的 根据 并 发 控制 和 数据 流 的 数量 
关系 来 分 类 。 主 要 的 概念 是 SIMD 和 MIMD: 

SIMD 单 指令 多 数据 。 在 单 核 处 理 器 或 者 多 核 处 理 器 上 ， 一 条 单 指令 流 同 时 并 行 处 理 
多 个 数据 流 。 例 如 向 量 处 理 器 ( 见 1.6 节 )、 具 有 SIMD 功能 的 现代 超标 量 微 处 理 侨 ( 见 2.3.3 
节 )、 图 形 处 理 器 (GPU) 等 。 从 历史 上 看 , 已 经 几乎 绝迹 的 SIMD 并 行 的 大 型 多 处 理 器 都 是 
以 思维 机 (thinking machine) 的 连接 机 (connection machine) 形式 实现 。 

MIMD 多 指令 多 数据 。 在 多 核 处 理 器 上 ， 多 条 指令 同时 操作 不 同 的 数据 。 本 章 的 共享 
内 存 和 分 布 式 存储 并 行 计 算 机 是 典型 的 MIMD 模式 。 

实际 上 还 有 另外 两 种 分 类 : SISD ( 单 指令 单数 据 ) 和 MISD (多 指令 单数 据 )。 前 者 一 般 
描述 在 传统 的 存储 程序 数字 计算 机 上 非 并 行 、 单 处 理 器 执行 方式 ， 而 后 者 在 实践 中 并 不 是 一 
个 有 效 的 模式 。 

严格 来 说 ， 在 超标 量 处 理 需 中 管道 执行 的 指令 级 并 行 处 理 器 CL 1.2.3 7 1.2.4 7) 并 
不 在 我 们 的 分 类 中 ， 虽 然 有 些 人 可 能 说 它 应 该 属于 MIMD。 然 而 ， 接 下 来 我 们 严格 地 限制 微 
Ab SAS MIMD 并 行内 置 为 共享 或 分 布 式 存储 并 行 计 算 机 。 


4.2 共享 存储 计算 机 


耕 干 CPU 工作 在 一 个 共享 的 物理 存储 空间 的 计算 机 就 是 共享 存储 计算 机 (shared- 
memory parallel computer)。 虽 然 在 功能 上 对 程序 员 透 明 ， 但 是 在 主 存 访问 方面 ， 共 享 存 储 
系统 带 来 了 两 种 很 不 同 的 特点 : 

O 一 致 内 存 访问 (Uniform Memory Access, UMA) 模式 是 一 个 “flat” 存 储 模式 : 所 

有 的 处 理 硕 和 存储 单元 有 着 相同 的 延迟 和 带宽 ， 这 也 称 作 对 称 多 处 理 器 ( Symmetric 
MultiProcess，SMP)。 在 本 书写 作 时 ， 单 个 多 核 处 理 器 芯片 〈( 见 1.4 节 ) RA “UMA 
机 器 " ， 但 是 已 经 出 现 同一 芯片 不 同 的 核 组 之 间 分 别 配 置 存储 控制 器 的 “片上 集群 ” 
设计 。 

口 cache 一致 的 非 一 致 内 存 访问 (cceNUMA) 模式 : 存储 在 物理 上 是 分 布 式 的 ， 但 在 逻 

辑 上 共享 。 这 样 的 系统 在 物理 分 布 上 与 分 布 式 存储 类 似 ( 见 4.3 节 )， 但 由 网 络 逻 辑 把 
所 有 存储 凝聚 在 一 个 单独 的 地 址 空间 。 由 于 分 布 式 的 特点 ，CPU 访问 的 位 置 不 同 (本 
地 或 者 远程 ) 会 审 来 访 存 性 能 的 不 同 。 

由 于 存在 多 CPU ， 不 同 cache 中 可 能 存储 着 同一 个 cache 行 的 备份 ， 其 中 有 些 备份 很 可 
能 被 修改 。 所 以 以 上 两 种 模式 的 cache 一 致 性 协议 必须 保证 cache 中 的 数据 与 内 存 中 的 数据 
在 任何 时 候 都 相同 。 关 于 UMA, 、ccNUMA 和 cache 一 致 性 机 制 在 后 续 章 节 中 会 详细 介绍 。 
在 科学 计算 中 共享 存储 的 编程 模式 现在 主要 是 openMP， 将 在 第 6 章 介绍 。 


4.2.1 cache 一 致 性 


不 论 是 UMA 模式 还 是 ccNUMA 模式 ， 在 所 有 存在 cache 的 多 核 系 统 中 cache 一 致 性 机 
制 都 是 必需 的 。 这 是 因为 相同 cache 行 的 备份 有 可 能 同时 存在 于 不 同 CPU 的 cache 中 ， 如 果 
其 中 一 个 备份 被 修改 并 写 到 了 内 存 中 ， 则 其 他 cache 中 的 备份 就 过 时 了 。cache 一 致 性 协议 
要 确保 在 所 有 情况 下 数据 都 相同 。 
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图 4-2 给 出 了 一 个 这 样 的 例子 。 有 两 个 处 理 器 P1、P2， 分 别 有 cache Cl 和 C2。 每 个 
cache 行 能 存储 两 个 元 素 。A1 和 A2 在 内 存 中 属于 同一 个 cache 行 ， 分 别 被 P1 和 了 2 修改 。 
假设 没有 cache 的 一 致 性 ， 每 一 个 cache 从 内 存 中 读 这 个 cache 行 ， 然 后 在 Cl 中 Al 被 改 
变 ， 在 C2 中 A2 被 改变 ， 一段 时 间 之 后 修改 后 的 cache 行将 会 写 进 内 存 。 由 于 内 存 流 的 处 
理 是 以 cache 行 大 小 为 单位 进行 的 ， 所 以 没有 办 法 确定 内 存 中 正确 的 Al 和 A2 值 。 

: ? Q@ C1 需要 cache 行 的 专 有 所 有 权 
@ 设 C2 中 的 cache 行为 1 状态 
@ C1 中 的 cache 行 已 经 为 E 状态 一 改变 Cl 中 的 Al 并 设 为 M 状态 
D C2 需要 cache 行 的 专 有 所 有 权 
@ E Cl 中 的 cache 行 然后 将 状态 设 为 1 
© 把 该 cache 行 加 载 进 C2， 设 状态 为 E 
D 修改 C2 中 的 A2, 设 C2 中 的 状态 为 M 
图 4-2 ”两 个 处 理 器 P1、P2 分 别 在 其 cache C1, C2 中 修改 了 Al、A2。MESI 一 致 性 协议 确保 
了 内 存 和 cache 的 一 致 性 


在 cache 一 致 性 的 逻辑 控制 下 ， 可 以 避免 这 种 现象 。 例 如 ，MESI 协议 中 的 4 个 字母 表 
示 cache 行 的 4 种 可 能 状态 : 
OM 修改 (modified): 此 cache 行 在 cache 中 被 修改 ， 且 在 其 他 cache 中 没有 其 他 备 
份 。 只 有 写 回 内 存 后 ， 内 存 才 表示 为 最 新 状态 。 
QE 专 有 (exclusive): 此 cache 行 只 从 内 存 中 读 取 没 有 被 修改 , 但 是 只 存在 这 一 个 
cache 中 。 
OS 共享 (share): 此 cache 行 只 从 内 存 中 读 取 没有 被 修改 ,但 是 在 其 他 cache 中 可 能 
还 有 备份 。 
Ol 无 效 (invalid): 此 cache 行 的 数据 无 效 。 在 正常 情况 下 ， 只 有 当 该 cache 行 处 于 
共享 状态 情况 下 ， 并 且 某 一 个 处 理 器 要 求 独 有 该 数据 时 才 会 发 生 。 
图 4-2 中 描绘 了 事件 的 顺序 。 如 果 一 个 cache 行 处 于 M 状态 ， 而 其 他 cache 需要 读 取 该 
行 的 最 新 数据 ， 当 需要 写 回 内 存 时 怎样 才能 被 其 他 cache 注意 到 呢 ? 同样 cache 行 处 于 状态 
SRA EW, QAR Ath cache 需要 独 享 这 个 数据 时 ， 该 行 必 须 置 为 1 状态 (invalidated). 在 
小 型 系统 中 可 以 用 总 线 突 探 ( snoop) 来 实现 : 当 cache 有 序 发 布 通知 时 ， 原 始 发 起 该 通知 的 
cache 通过 系统 广播 一 致 的 cache 行 地 址 ， 所 有 其 他 cache 完 探 总 线 ， 并 作出 相应 反应 。 虽 
然 该 方案 可 以 简单 实现 ， 但 是 存在 着 一 个 重要 的 缺点 ， 当 在 系统 总 线 上 广播 地 址 时 ， 容 易 被 
污染 ， 导 致 有 效 的 存储 带宽 减少 。 使 用 一 个 专门 的 网 络 可 以 减少 带 来 的 影响 ,但 也 并 不 总 是 
可 行 。 
在 大 型 ccNUMA 机 器 中 ， 目 录 协 议 通 常会 作为 一 个 更 好 的 替代 方案 : 芯片 和 内 存 接 
口 等 总 线 逻 辑 跟踪 系统 中 cache 行 的 位 置 和 状态 。 这 虽然 会 占用 一 小 部 分 主 存 或 cache， 
但 是 cache 行 状态 的 改变 只 传 给 需要 该 数据 的 cache， 这 大 大 减少 了 通信 网 络 中 为 确保 
一 致 性 而 进行 的 数据 传输 。 目 前 甚至 使 用 工作 芯片 组 实现 “ 宇 探 过 滤器 ”来 达到 相同 的 
目的 。 
如 果 相 同 的 cache 行 被 不 同 的 处 理 器 频繁 修改 ， 则 通信 网 络 会 严重 伤害 应 用 程序 的 性 
能 。7.2.4 节 将 会 介绍 在 用 户 程序 中 怎样 避免 伪 共 享 的 情况 。 





4.2.2 UMA 


UMA 系统 最 简单 的 实现 是 一 个 双核 处 理 器 ， 两 个 CPU 在 同一 个 芯片 上 共享 一 条 存储 路 
径 。 高 性 能 计算 中 在 计算 节点 上 使 用 多 个 单 核 或 者 多 核 作 片 也 是 很 篆 见 的 现象 。 

图 4-3 中 ， 两 个 单 核 处 理 需 都 有 自己 的 捅 梭 ， 通 信和 访 存 都 使 用 同一 个 前 端 总 线 (FSB), 
CPU 中 已 经 内 建 了 所 有 的 仲裁 协议 。 图 中 的 chipset (芯片 组 ， 通 常 是 “北桥 ”) 负责 驱动 存储 
模块 和 连接 其 他 部 分 的 节点 ， 如 IO 总 线 。 然 而 这 种 设计 已 经 过 时 ， 现 代 系 统 已 不 再 使 用 。 

图 4-4 中 ， 两 个 双核 芯片 与 chipset 相连 ， 每 一 个 核 都 有 独立 的 FSB。chipset 能 增强 
cache 的 一 致 性 ， 也 连接 着 内 存 。 原 则 上 ， 这 样 的 系统 能 够 使 chipset 到 内 存 的 带宽 与 前 端 总 
线 的 总 带宽 相 匹 配 。 每 个 芯片 上 有 一 个 共享 的 L2， 每 个 核 都 有 单独 的 地 1。 核 、cache 和 插 
覃 的 分 布 使 系统 存在 各 向 异性 ， 即 一 个 核 与 其 他 核 的 “距离 ”取决 于 是 否 在 同一 插 槽 上 。 大 
规模 的 多 核 处 理 器 拥有 多 级 cache 组 ， 这 使 情况 变 得 更 复杂 。 人 参考 1.4 节 关 于 共享 cache 和 
各 癌 异 性 结果 的 更 多 信息 。 





图 4-3 ”两 个 单 核 CPU 组 成 的 UMA 系统 ， 图 4-4 两 个 双核 CPU 组 成 的 UMA 系统 ， 
它们 共享 一 条 前 端 总 线 两 条 前 端 总 线 分 别 连 接 到 芯片 组 


UMA 系统 的 主要 问题 是 当 插 槽 (或 者 前 端 总 线 ) 的 数量 超过 了 限制 就 会 产生 带宽 瓶颈 。 
像 图 4-3 中 的 设计 ， 存 储 总 线 通常 一 次 只 能 传输 一 个 数据 给 一 个 CPU (如 今 的 所 有 多 核 芯片 
都 会 受到 带宽 的 限制 ， 但 将 来 可 能 会 发 生 一 些 变化 )。 

为 了 保持 内 存 带 宽 和 CPU 数量 的 可 扩展 性 ， 可 以 内 建 无 堵塞 开关 来 建立 插 模 和 存储 模 
型 间 的 点 对 点 连接 ， 如 图 4-4 中 的 芯片。 但 是 随 着 插 槽 的 增加 ， 高 聚合 的 带宽 将 是 一 笔 昂贵 
的 费用 。 本 书写 作 时 ， 最 大 的 具有 可 扩展 的 带宽 UMA 系统 (NEC SX-9 向 量 节点 ) 只 有 16 
个 插 槽 。 这 个 问题 无 法 解决 ， 除 非 放弃 UMA 原则 。 


4.2.3 ccNUMA 


在 ccNUMA 结构 中 ， 多 个 处 理 器 核 和 本 地 连接 内 存 一 起 称 为 局 部 域 (Locality Domain, 
LD)。 其 中 的 内 存 能 被 最 高 效 的 方式 访问 ， 即 不 需要 连接 任何 网 络 。 多 个 局 部 域 通过 网 络 连 
接 ， 人 允许 处 理 器 透明 地 访问 其 他 处 理 器 的 内 存 。 从 这 个 意义 上 可 以 说 ， 一 个 局 部 域 可 以 看 
作 是 一 个 UMA 群 (building block)。 整 个 系统 仍然 共享 内 存 ， 运 行 着 同一 个 OS 实例 。 尽 管 
ccNUMA 提供 可 扩展 带宽 能 扩展 到 很 多 个 处 理 器 ,但 是 在 HPC 集群 中 广泛 使 用 一 种 比较 便 
家 的 2 或 4 个 插 槽 的 节点 模式 (参见 图 4-5 )。 在 图 4-5 的 例子 中 ， 有 两 个 局 部 域 ， 每 一 个 局 
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部 域 中 有 四 个 处 理 器 ， 它 们 分 别 有 着 私有 cache， 还 有 一 个 通用 接口 连接 着 本 地 内 存 。 两 个 
局 部 域 由 高 速 网 络 连接 。 超 传输 (HyperTransport, HT) 和 快速 通道 ( QuickPath，QPI) 是 
AMD 和 Intel 目前 比较 青睐 的 技术 ， 但 是 也 存在 一 些 其 他 连接 技术 。 由 于 插 权 能 够 直接 驱动 
内 存 ， 因 此 内 部 插 槽 能 直接 访问 cache 一 致 性 内 存 ， 使 得 单独 的 接口 芯片 被 淘汰 。 从 程序 员 
的 观点 来 看 这 种 机 制 也 是 透明 的 : 硬件 直接 处 理 所 有 需要 的 协议 。 





图 4-5 有 2 个 局 部 域 (每 个 插 模 上面 一 个 局 部 域 ) 和 8 个 核 的 ccNUMA 系统 


图 4-6 展示 了 另外 一 种 ccNUMA 设计 ， 它 可 以 灵活 地 扩展 到 大 规模 的 机 器 ， 常 被 用 在 
基于 Intel ALIEZE HJ SGI Altix 系统 中 ， 在 单个 地 址 空间 和 单个 操作 系统 实例 中 连接 着 上 千 个 
核 。 每 个 处 理 器 插 槽 都 连接 到 一 个 通信 接口 (S)， 该 通信 接口 提供 内 存 访问 并 连接 着 专用 的 
NUMALink (NL) 网络。NL 网 络 依赖 路 由 器 访问 非 局 部 存储 。 由 于 HT 和 QPI 技术 ， 人 允许 
NL 硬件 透明 地 访问 机 需 中 整个 地 址 空间 中 的 所 有 核 。 





图 4-6 一 个 ccNUMA 系统 (SGI Altix)， 有 四 个 局 部 域 (LD), + LD 都 包含 一 个 双核 的 插 
Wo LD 通过 路 由 器 使 用 NUMALink (NL) 网 络 连接 


图 中 只 展示 了 四 个 插 权 ， 但 是 通过 多 级 路 由 器 可 以 把 规模 扩大 到 几 百 个 CPU。 需 要 注 
意 ， 在 数据 连接 (通信 接口 、 路 由 器 ) 中 插入 的 每 一 个 硬件 都 会 增加 延迟 ， 这 会 造成 系统 中 
访问 时 间 的 不 均匀 。 而 且 在 大 型 系统 中 ， 提 供 相 当 于 直接 连 线 的 速度 和 远程 非 堵塞 内 存 访 问 
非常 昂贵 。 由 于 这 些 原因 ， 大 型 超级 计算 机 和 成 本 要 求 较 高 的 小 型 集群 通常 由 共享 内 存 的 集 
BE (通常 是 ccNUMA 种 类 ) 通过 一 些 不 具有 ccNUMA 能 力 的 网 络 连接 而 成 。 详 细 细 节 请 参 
考 4.3 WA 4.4 Wi. 

在 所 有 的 ccNUMA 设计 中 ， 网 络 连接 必须 与 本 地 存储 有 相同 数量 级 的 带宽 和 延迟 。 在 
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所 有 的 现代 系统 中 ， 如 果 访 存 不 限制 在 局 部 域内 ， 那 么 即使 一 个 很 小 的 惩罚 系数 也 能 很 大 程 
度 地 损害 应 用 程序 的 性 能 。 在 ccNUMA 高 性 能 软件 中 ， 局 部 域 问题 是 影响 性 能 的 两 个 障碍 
之 一 ， 甚 至 在 只 运行 一 个 串 行 程序 的 ccNUMA 机 器 上 也 会 发 生 。 第 二 个 问题 是 潜在 的 竞争 。 
如 果 不 同 局 部 域 中 的 两 个 处 理 器 需要 访问 同一 个 局 部 域 中 的 内 存 ， 就 存在 内 存 带 宽 的 殴 委 。 
即使 网 络 无 堵塞 、 性 能 在 带宽 和 访 存 延迟 限制 以 内 ， 竞 争 也 可 能 发 生 。 这 两 个 问题 可 以 通过 
仔细 观察 并 安排 应 用 程序 数据 的 访 存 模式 、 限 制 每 个 处 理 器 只 能 访问 其 局 部 域 中 的 数据 存储 
等 方法 避免 ， 第 8 章 将 会 详细 介绍 。 

尽管 O 传输 相对 于 内 存 带 宽 较 慢 ， 但 是 也 有 些 高 速 网 络 能 在 计算 市 点 之 间 能 达到 GB 
的 带宽 。 在 廉价 的 ccNUMA 系统 中 ，1/O 接口 通常 只 连接 到 一 个 LD 上。 如 果 数 据 写 到 了 
“错误 ”的 局 部 域 ，LO 驱动 将 忽略 所 有 的 ccNUMA 约束 而 把 它 复 制 到 最 优 的 地 址 空间 ， 但 
这 将 减少 4 倍 的 有 效 带 宽 (如 果 写 分 配 可 以 被 避免 ， 则 是 3 倍 ， 见 1.3.1 节 )。 在 这 种 情况 
下 ， 再 贵 的 互联 硬件 也 是 浪费 。 真 正 可 扩展 到 ccNUMA 设计 中 ， 通 过 机 器 中 的 分 布 式 的 1/0 
连接 和 ccNUMA-aware 驱动 可 以 绕 开 这 个 问题 。 


4.3 分布 式 存储 计算 机 


图 4-7 是 一 个 分 布 式 内 存 并 行 计 算 机 简 图 。 每 个 处 理 咒 了 连接 一 个 独 有 的 局 部 内 存 ， 即 
其 他 CPU 不 能 直接 访问 该 内 存 。 但 是 现在 已 经 没有 以 这 种 层次 结构 实现 的 分 布 内 存 系统 了 ， 
这 个 草图 只 是 被 当 作 一 个 编程 模型 看 待 。 一 方面 ， 由 于 价格 或 性 能 方面 的 原因 ， 当 今 所 有 的 
并 行 机 中 最 流行 的 是 PC 集群 ， 由 一 批 具有 2 个 或 更 多 CPU 的 共享 内 存 的 “计算 节点 ”组 
成 〈 见 下 一 节 )。 必 一 方面 ， 从 “分 布 式 存 储 程序 员 ” 的 角度 来 看 也 不 是 这 样 的 ， 在 纯 共 亭 
内 存 的 机 右上 使 用 分 布 式 存 储 方法 编程 也 是 可 能 的 (也 十 分 常见 )。 





通信 网络 


图 4-7 分 布 式 并 行 计算 机 的 “程序 员 简 化 版 ”或 “编程 模型 ”: 处 理 器 中 运行 着 独立 的 进程 ， 
通过 网 络 接口 (NI) 在 网 络 上 通信 ， 虽 然 处 理 器 可 能 储存 于 共享 内 存 中 ， 但 处 理 器 不 
能 直接 访问 其 他 处 理 器 的 内 存 (M) 


每 个 节点 至 少 包 含 一 个 网 络 接口 (NI) 连接 到 通信 网 络 。 每 个 CPU 上 运行 一 个 串 行 程 
序 ， 该 程序 能 够 通过 网 络 与 其 他 CPU 上 的 程序 进行 通信 。 可 以 预想 到 ， 在 一 个 共享 内 存 的 
并 行 计 算 机 上 ， 几 个 处 理 器 同时 解决 一 个 问题 是 很 容易 的 ， 但 是 在 分 布 式 存储 计算 机 上 没有 
远程 访 存 功能 ， 需 要 通过 在 处 理 器 之 间 的 消息 传递 来 合作 解决 一 个 问题 。 第 9 章 将 介绍 主流 
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的 消息 传递 标准 : MPI。 虽 然 消 息 传递 比 共 享 内 存 编程 模型 更 复杂 ， 但 是 从 总 体 上 来 看 ， 大 
规模 的 超级 计算 机 是 分 布 式 内 存 系统 的 变 体 。 

这 里 列 出 的 分 布 式 内 存 架 构 也 称 为 无 远程 内 存 访 问 模 型 (No Remote Memory Access, 
NORMA)。 有 些 厂 商 提供 库 和 硬件 支持 一 定 的 远程 访 存 功能 ， 甚 至 是 在 分 布 式 内 存 机 器 上 。 
但 是 这 种 特性 是 与 厂商 强 相 关 的 ， 没 有 被 广泛 接受 的 标准 ， 详 细 的 介绍 已 超出 本 书 的 范围 。 

互联 网 络 的 选择 有 很 多 。 最 简单 的 情况 可 能 是 标准 交换 式 以 太 网 了 ， 但 也 出 现 了 一 些 更 
先进 的 技术 可 以 很 容易 达到 千 兆 以 太 网 十 倍 的 性 能 (网络 的 基本 性 能 特点 请 参考 4.5.1 节 )。 
5.3 节 将 看 到 ， 网 络 的 布局 和 速度 对 应 用 程序 的 性 能 有 很 大 的 影响 。 最 受 欢 迎 的 设计 是 由 一 
个 非 阻 塞 “ 线 速 ”网 络 组 成 ， 该 网 络 能 够 在 X 个 节点 之 间 不 产生 任何 瓶颈 地 转换 N/2 个 连 
接 。 尽 管 一 些 几 十 到 上 百 个 节点 的 小 型 系统 一 应 俱全 ， 但 是 其 中 非 阻 塞 交 换 结 构 的 大 型 装置 
是 一 个 巨大 的 浪费 ， 而 如 果 按 弃 这 些 装 置 ， 那 么 当 所 有 节点 同时 要 求 通信 时 则 会 出 现 瓶 颈 ， 
所 以 这 通常 要 做 一 些 折 中 。 详 细 的 网 络 拓扑 请 参考 4.5 节 。 


44 混合 型 系统 


正如 前 面 所 提 到 的 ， 大 规模 并 行 计算 机 并 不 是 纯粹 的 共享 内 存 类 型 也 不 是 纯粹 的 分 布 式 
存储 ， 而 是 两 者 的 结合 ， 即 用 共享 内 存 的 结构 通过 快速 网 络 连 接 而 成 。 由 于 网 络 增加 了 其 他 
的 通信 特点 (如 图 4-8 所 示 )， 这 使 得 总 体系 统 设计 与 多 核 或 者 ccNUMA 节操 设计 比较 起 来 
更 加 具有 各 向 异 向 性 。 混 合 型 的 概念 会 使 尽 可 能 多 的 基础 设施 可 以 共享 具有 很 好 的 性 价 
比 ， 例 如 通过 两 个 插 模 建立 一 个 共享 内 存 节 点 比 和 两 个 节点 各 自 拥有 的 一 个 插 槽 的 系统 明显 
便宜 。 而 且 更 多 的 核 和 插 模 共享 一 个 网 络 连接 ， 这 也 减少 了 网 络 的 开销 。 









通信 网 络 


图 4-8 典型 的 具有 共享 内 存 节点 《ccNUMA 类 型 ) 的 混合 型 系统 。 双 揪 权 结构 具有 很 好 的 性 
价 比 优势 ， 并 应 用 在 许多 商业 集群 上 


目前 双 权 结构 是 便宜 的 商品 集群 最 好 的 选择 ， 即 使 用 标准 的 组 件 而 不 是 专门 为 HPC 设 
计 的 组 件 建立 系统 。 根 据 系统 上 具体 运行 的 应 用 程序 ， 对 于 这 种 结构 ， 每 个 核 可 用 的 网 络 带 
宽 减 少 会 导致 程序 的 性 能 有 所 限制 。 此 外 它 本 身 并 不 清楚 怎样 高 效 地 利用 核 、cache 组 、 插 
槽 和 忆 点 之 间 的 复杂 结构 。 唯 一 普遍 的 共识 是 最 优 的 编程 模型 高 度 依赖 应 用 程序 和 系统 。 第 
11 章 将 会 具体 讲解 这 种 层次 结构 的 编程 方法 。 

具有 上 述 层 次 结构 的 并 行 计算 机 也 称 为 混合 型 (hybrid)。 这 个 概念 更 加 通用 ， 通 常用 
来 分 类 在 不 同 硬 件 层次 上 是 否 具 有 混合 编程 模型 的 系统 。 这 种 系统 的 一 个 突出 例子 是 由 节 
点 组 成 的 集群 ， 节 点 除了 “通常 ”的 多 核 处 理 器 外 ， 还 有 额外 的 加 速 硬 件 ， 从 应 用 程序 特 


定 的 卡 到 GPU (图 像 处 理 器 )、FPGA (现场 可 编程 门 阵列 )、ASIC (特定 用 途 集成 电路 入 协 
处 理 器 等 。 


45 网 络 
Piradi po iea 用 程序 性 能 的 巨大 影响 。 网 络 连接 着 “执行 单元 ”、 
“计算 节点 ” eh ede te 
a. 
同 网 络 的 拓扑 结构 和 性 能 。 我 们 将 试 着 独立 于 具体 应 用 和 程序 模型 来 讨论 ， 重 点 讨论 应 用 在 
分 布 式 内 存 、 共 享 内 存 和 混合 型 系统 上 的 网 络 。 


4.5.1 网 络 的 基本 性 能 特征 


正如 前 面 所 提 到 的 ， 并 行 计 算 机 上 有 很 多 种 网 络 可 选择 。 最 简单 也 最 便宜 的 应 该 是 千 兆 
以 太 网 ， 它 将 满足 多 数 应 用 程序 的 要 求 ， 但 是 对 于 有 快速 通信 需求 的 并 行程 序 来 说 还 是 太 
慢 。 rit 分 布 式 内 存 特别 是 在 商业 集群 上 的 网 络 的 主要 选择 是 InfiniBand. 
点 对 点 连接 
PER REEMA, BAAR AERE REA AT DAP RRR: 假设 
传输 N PERKE, SAAS fe f hE] H ER A ER, 


T= Tet (4-1) 
BERK Mi) Wars, 单位 为 MB/s， 有 效 带 宽 是 : 
N 
Ba=— 7 (4-2) 


Tet 2 

注意 在 通常 情况 下 ,Tt 和 B 依 赖 于 NN 的 长 度 。 一 个 典型 例子 是 如 图 1-18 所 示 的 共享 
cache 的 多 核 处 理 带 ， 在 同一 个 插 槽 的 两 个 核 上 ， 消 息 传 递 的 延迟 和 带宽 明显 依赖 于 消息 的 
长 度 是 否 符合 共享 cache 行 的 长 度 。 我 们 暂时 忽略 这 个 影响 ,但 在 理解 消息 传递 的 优化 细节 
上 这 是 至 关 重 要 的 ， 我们 将 在 第 10 章 继续 讨论 这 个 话题 。 

在 测量 延迟 和 有 效 带 宽 时 常用 PingPong 基准 测试 集 。 这 个 代码 在 运行 在 不 同 处 理 器 上 
(也 有 可 能 是 不 同 的 节点 ， 参 见 图 4-9) 的 两 个 进程 之 间 发 送 并 接收 一 个 长 度 为 N 字 节 的 消 

进程 0 进程 1 


时 间 
图 4-9 在 两 个 处 理 器 之 间 PingPong 数据 交换 的 时 间 线 。 处 理 器 0 传送 长 度 为 Y 字 节 的 消息 到 
处 理 器 1， 然 后 再 传 回 
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A o 伪 代 码 如 下 所 示 ° 


myID = get_process_ID() 
if(myID.eq.0) then 


targetID = 1 

S = get_walltime() 

call Send message (buffer,N,targetID) 

call Receive_message (buffer,N,targetID) 

E = get_walltime() 

MBYTES = 2xN/ (E-S)/1.d6 ! MBytes/sec rate 

TIME = (E-S)/2*1.d6 ! transfer time in microsecs 
! for single message 


else 


targetID = 0 
call Receive_message (buffer,N,targetID) 
call Send_message (buffer,N,targetID) 


endif 


接 下 来 讨论 不 同 的 X 对 于 带宽 的 变化 ， 带 宽 单 位 MB/s。 现 实 中 经 篆 使 用 合适 的 消息 传 
递 库 ， 例 如 第 9 章 介 绍 的 消息 传递 接口 (Message Psssing Interface，MPI)。 以 下 所 示 的 数据 


是 用 标准 的 “Intel MPI 基准 测试 集 ”(Intel MPI Benchmark, IMB) 获得 的 [W 124]. 


在 图 4-10 中 ， 对 式 (4-2) 在 千 兆 以 太 网 上 测量 出 的 真实 参数 数据 进行 拟 合 以 建立 模 
型 ， 这 个 简单 的 模型 能 够 很 好 地 描述 总 体 特 点 : 我 们 发 现 消息 长 度 较 小 时 占用 的 带宽 非常 
低 ， 因 为 主要 的 传输 时 间 是 延迟 ; 而 消息 长 度 很 大 时 ， 延迟 几乎 可 以 忽略 但 带宽 却 将 近 
饱和 。 拟 合 的 参数 为 千 兆 以 太 网 上 合适 的 值 。 然 而 令 N = 0, 延迟 时 间 即 为 传输 时 间 CL 


图 4-10 中 的 插图 )。 但 是 不 能 精确 地 拟 合 T+.， 接 下 来 的 草 市 会 给 出 更 详细 的 解释 。 





120 
100 
80 
5 
S H “F  , . O d J... 
= | 
“40 ! 
9 ， 模型 拟 合 参数 (T=76 ps, 
|  B=111 MB/s) 
20 , | o 实际 测量 点 (GE) 
0 1 
10' 10° 10° 10° 10° 10° 
N[ FW] 


图 4-10 在 千 兆 以 太 网 上 ， 式 〈4-2 ) 中 的 模型 在 不 同 消息 长 度 时 有 效 带宽 的 参数 拟 合 。 不 能 


精确 拟 合 出 的 鳌 值 (文中 有 解释 )。No 是 达到 饱和 带宽 一 半 时 的 消息 长 度 (虚线 ) 


延迟 是 由 数据 链 路 的 物理 参数 设 定 的 ， 与 带宽 限制 比较 起 来 ， 有 以 下 几 个 特点 : 
口 所 有 的 数据 传输 协议 都 会 有 一 定 的 开销 ， 例 如 像 消息 头 一 样 数据 管理 结构 。 


a 有 些 协议 (例如 网 络 层 使 用 的 TCP/IP 协议 ) 定义 了 一 个 最 小 消息 长 度 ， 所 以 即使 传 
输 单个 字 节 的 消息 ， 传 输 的 最 小 帧 的 长 度 也 大 于 1 字 节 (W> 1)。 
a 消息 传输 的 初始 化 是 一 个 复杂 的 过 程 ， 根 据 网 络 协 议 的 复杂 度 不 同 涉 及 多 个 软件 层 ， 
每 一 个 软件 层 都 会 增加 延迟 。 


O 集群 中 经 常 使 用 的 PC HEE, WRA TREK K IO 进行 优化 。 

事实 上 ， 高 性 能 的 网 络 通过 减少 以 上 各 点 带 来 的 影响 来 改善 延迟 。 供 应 商 提供 的 轻 量 级 
的 协议 、 优 化 驱动 、 通 信 设 备 直接 与 处 理 器 总 线 相 连 等 措施 都 已 经 用 于 减少 延迟 。 

但 是 模型 的 参数 拟 合 与 实际 情况 还 是 有 出 人 (lst (4-2 ))， 毕 竟 随 着 消息 长 度 的 变化 ， 
有 效 带宽 和 延迟 会 有 很 大 的 变化 。 例 如 消息 长 度 为 8 个 数量 级 的 差距 ， 并 且 延 迟 为 主体 的 
系统 中 (小 的 消息 长 度 模式 ) 有 效 带 宽 要 比 长 度 大 的 消息 少 3 个 数量 级 以 上 。 而 且 , Te AB 
分 别 在 不 同 的 消息 长 度 下 才能 拟 合 出 最 佳 的 参数 。 正 是 由 于 这 些 原 因 ， 在 图 4-10 中 千 兆 以 
太 网 延迟 的 PingPong 测试 失败 了 。 因 此 ， 测试 应 用 程序 的 参数 模型 应 该 在 不 同 的 消息 长 度 
(至 少 取 两 个 极端 长 度 ) 下 测量 。 图 4-11 是 DDRInfiniBand 网 络 测量 PingPong 测试 集 的 结 
果 。 为 了 更 好 地 判断 拟 合 的 质量 ， 在 图 4-11 中 将 两 个 坐标 轴 写 成 对 数 形 式 。 分 别 对 小 消息 
长 度 和 大 消息 长 度 进行 测量 ， 严格 拟 合 形 成 了 点 虚线 和 虚线 ， 前 者 能 够 获得 更 好 的 B 的 估 
计 值 ， 而 后 者 能 够 得 到 更 精确 的 7。 实 线 是 使 用 拟 合 函 数 结合 两 个 参数 ( 式 (4-2 ) ) HAR 
的 ， 对 中 间 消 息 长 度 测量 的 结果 。 造 成 参数 拟 合 结果 有 误差 的 原因 有 很 多 ， 通 常 是 由 于 给 定 
了 消息 长 度 ， 消 息 传 递 和 网 络 协议 层次 在 不 同 的 缓冲 算法 中 转换 (参见 10.2 节 ) 或 者 由 于 消 
息 超 过 了 大 小 的 限制 被 分 为 更 小 的 块 等 。 


小 消息 长 度 


”一 一 了 =4.14hs, B=827 MB/s 
一， T;=20.8us, B=1320 MB/s 


~— T=4.14us, B=1320 MB/s 
e 实际 测量 点 (IB) 





10' 10° 10° 10° 10° 10° 
N[ 字 节 ] 
图 4-11 DDR InfiniBand 网 络 上 ， 式 (4-2) 中 的 模型 在 不 同 消息 长 度 时 有 效 带 宽 的 参数 拟 合 。 
分 别 列 出 了 最 合适 的 参数 : 渐 近 带宽 (点 虚线 )、 延 迟 (虚线)， 实 现 是 使 用 了 结合 两 
AFUE PR ( 实 线 ) 


虽然 饱和 带宽 B 可 能 非常 高 (有 些 系 统 能 使 节点 间 的 网 络 带 宽 可 以 与 处 理 器 本 地 内 存 之 

间 的 带宽 相 媲 美 )， 但 是 许多 应 用 程序 仍然 工作 在 带宽 图 中 延迟 占 主要 部 分 的 区 域 。 为 了 量 

化 这 个 问题 ， 引 用 了 Nin, AY B= B/2 时 消息 的 长 度 ( 见 图 4-10 )。 在 这 个 模型 中 (È 

(4-2)), Nin = B7:。 这 可 以 用 来 解释 以 因子 5 增加 最 大 网 络 带宽 是 否 真 的 有 利于 所 有 消息 。 
当 消 息 的 长 度 为 N 时 ， 对 带宽 的 改善 为 : 

Bua(BB,T) 1+N/Nin 

Ber(B, T) 1+N/BNin 





( 4-3 ) 
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所 以 当 N= Nn, B= 2 时 ， 只 增加 33%。 同 样 以 因子 8 减少 延迟 是 一 样 的 结果 。 因 此 ， 
对 于 所 有 的 应 用 程序 ， 这 是 改善 延迟 和 带宽 以 使 互联 更 有 效 的 理想 的 模型 。 

2 对 分 带宽 

上 述 简 单 的 PingPong 算法 并 不 能 准确 描述 “总 体 ” 饱 和 带 来 的 影响 : 如 果 网 络 并 不 是 
完全 非 堵塞 结构 ， 当 所 有 节点 同时 传输 或 者 接收 数据 时 ， 聚 合 带宽 即 所 有 点 对 点 连接 的 有 效 
带宽 的 总 和 会 低 于 理论 值 。 这 会 严重 减少 多 CPU 系统 上 应 用 程序 的 性 能 和 总 吞吐 量 。 对 分 
带宽 (bisection bandwidth) B, 可 以 用 来 度量 整个 网 络 上 的 最 大 聚合 通信 和 能力。 把 整个 网 络 
切 分 为 两 个 相等 大 小 的 部 分 (图 4-12 中 的 虚线 ) 时 ， 必 须 去 掉 的 连接 边 的 带宽 总 和 的 最 小 值 
即 为 等 分 带宽 。 在 混合 系统 中 ， 每 个 核 可 获得 的 带宽 是 一 个 更 重要 的 度量 方法 ， 即 等 分 融 宽 
除 以 核 的 数量 。 每 个 核 的 等 分 带宽 下 降 是 多 核 传输 中 一 个 额外 的 不 利 影响 因素 。 





图 4-12 等 分 带宽 By 是 当 等 分 系统 分 成 两 个 部 分 时 至 少 必须 去 掉 的 连接 边 (图 中 是 3 ) 的 带宽 总 和 


45.2 Be 


总 线 是 一 种 共享 介质 ， 但 同一 时 刻 只 能 被 一 个 通信 设备 使 用 (图 4-13 )。 需 要 一 些 合适 
的 人 硬件 机 制 以 阻止 发 生 冲 突 (两 个 以 上 的 设备 同时 传输 )。 总 线 在 计算 机 系统 中 非常 常见 ， 
它 很 容易 实现 、 延 人 运 少 ， 而 且 能 提供 必要 协议 需要 的 现成 硬件 。PCTI (Peripheral Component 
Interconnect) 总 线 是 典型 的 例子 ， 在 许多 商用 系统 中 用 来 连接 IO 设备 。 在 目前 一 些 多 核 设 
计 中 ， 总 线 与 主 存 在 同一 块 世 片 中 单独 连接 着 CPU 芯片 。 





总 线 最 重要 的 缺点 是 堵塞 。 所 有 设备 共享 一 个 恒定 带宽 ， 意味 着 连接 的 设备 越 多 则 平均 
带宽 越 低 。 在 工艺 设计 上 ， 为 大 型 系统 设计 更 快 总 线 时 ， 电 容 和 电感 负载 限制 着 传输 的 速 
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度 。 此 外 ， 总 线 很 容易 由 一 个 局 部 问题 而 影响 到 所 有 设备 。 在 高 性 能 计算 领域 ， 高 速 通信 时 
使 用 的 总 线 往往 限制 在 处 理 器 或 者 插 槽 层 上 ， 或 者 只 针对 专门 的 网 络 使 用 。 


45.3 ”交换 网 络 和 胖 树 网 络 


交换 网 络 (switched network) 中 把 所 有 的 设备 细 分 为 组 。 组 中 的 所 有 设备 以 星 型 形式 连 
接着 一 个 中 央 网 络 设备 (交换 机 )， 交 换 机 互相 连接 或 者 通过 其 他 的 交换 机 层次 连接 。 在 这 
样 的 网 络 中 ， 两 个 通信 设备 的 距离 通常 由 “ 跳 ”( hop) 来 描述 ， 即 消息 传递 时 需要 经 过 交换 
机 的 数目 。 因 此 一 个 多 交换 机 的 层次 结构 必须 考虑 延迟 。 任 意 两 个 互联 设备 之 间 跳 数 的 最 大 
值 即 为 网 络 直 径 ， 同 一 个 总 线 系 统 (参见 4.5.2 节 ) 中 网 络 直 径 只 有 一 个 。 

一 个 交换 机 或 者 可 以 单独 支持 一 个 完全 非 堵塞 操作 ， 即 每 对 端口 可 以 同时 使 用 它们 之 间 
的 全 部 带宽 ， 或 者 也 可 以 像 总 线 那 样 带 宽 会 被 限制 。 完 全 无 堵塞 交换 的 一 种 实现 方法 是 使 用 
开关 (crossbar, VLA 4-14 )， 这 样 的 结构 可 以 被 连接 并 串联 成 一 种 胖 树 交换 层次 ， 这 样 既 可 
以 在 整个 系统 中 保持 非 墙 塞 (如 图 4-15 )， 也 可 以 减少 树 根 节点 的 连接 以 “定制 ”合适 带宽 
(如 图 4-16 所 示 )。 在 后 者 的 结构 中 ， 每 个 节点 的 对 分 带宽 会 少 于 每 个 端口 叶子 交换 机 带宽 
的 一 半 ， 而 且 即 使 静态 路 由 本 身 没 有 任何 问题 也 可 能 发 生 竞 争 。 网 络 基础 设备 应 该 具有 平滑 
流量 (动态 或 者 静态 ) 的 能 力 ， 否 则 一 些 较 重负 载 的 点 对 点 连接 会 比 一 些 轻 载 连接 更 快 。 另 
一 方面 ， 任 意 两 个 计算 节点 之 间 的 最 大 延迟 通常 只 与 交换 层次 的 数量 有 关 。 





图 4-14 一 个 完全 无 堵塞 的 二 维 交 义 胖 树 网 络 。 每 一 个 圆圈 代表 从 “IN” 到 “OUT” 的 两 个 
设备 之 间 的 一 个 可 能 的 连接 ， 所 以 圆圈 形成 了 一 个 2*2 的 交叉 网 络 。 整 个 回路 可 以 作 
为 一 个 4 端口 的 非 堵塞 交换 机 





图 4-15 ”一 个 完全 非 堵塞 满 带宽 的 胖 树 网 络 ， 具 有 两 层 交 换 机 结构 。 连 接 计算 元 素 的 交换 机 称 
为 叶子 交换 机 ， 而 顶层 交换 机 形成 了 结构 的 spine 
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图 4-16 由 于 spine 的 通信 连接 出 现 “1 : 3” 的 现象 会 导致 胖 树 网 络 出 现 瓶 颈 。 使 用 单个 spine 
交换 机 ， 由 于 只 可 能 有 4 个 非 堵塞 连接 对 ， 所 以 与 图 4-15 比较 起 来 对 分 带宽 只 有 一 
半 ， 而 每 个 计算 节点 的 对 分 带宽 会 更 少 


由 于 建立 上 千 个 计算 节点 的 完全 非 堵塞 交换 结构 非常 昂贵 ， 而 交换 机 所 需 的 硬件 和 布 
线 比较 容易 做 到 ， 所 以 上 文中 的 后 一 种 是 大 型 系统 常用 的 选择 。 此 外 ， 考 虑 到 聚合 带宽 ， 
网 络 将 变 得 很 不 均匀 一 一 根据 应 用 程序 的 实际 通信 需求 ， 任 务 在 整个 系统 中 的 确切 位 置 对 
整体 性 能 非常 重要 : 如 果 一 组 任务 只 使 用 一 个 叶子 交换 机 ， 则 它们 都 会 乐于 使 用 完全 非 堵 
塞 通信 而 不 论 是 否 出 现 瓶 颈 〈 见 4.5.4 节 的 转换 方法 ， 建 立 很 大 的 高 性 能 网 络 可 以 避免 这 种 
问题 )。 

然而 像 图 4-15 那样 的 完全 非 堵塞 交换 结构 仍然 可 能 出 现 瓶 颈 。 如 果 使 用 静态 路 由 ， 即 
硬 计 算 节 点 之 间 是 “和 硬 布 线 ” 连 接 ， 也 就 是 说 在 两 个 节点 之 间 有 且 只 有 一 条 数据 通路 (交换 
开关 遍历 的 次 序 )， 可 能 出 现 spine 交换 机 端口 的 不 平衡 使 用 ， 当 负载 很 高 时 就 会 导致 冲突 
(参考 图 4-17 的 例子 )。 如 今 的 许多 商业 交换 机 产品 使 用 静态 路 由 表 [O 57]。 自 适应 路 由 可 
以 根据 网 络 负载 选择 数据 通路 ， 因 此 能 够 避免 冲突 。 对 于 所 有 的 通信 模式 ， 只 有 自 适 应 路 由 
有 充分 利用 对 分 市 宽 的 能 力 。 


图 4-17 ”如 果 使 用 静态 路 由 ， 即 使 在 无 堵塞 的 胖 树 交换 结构 ( 实 线 为 网 络 布线 ) 中 ， 也 并 不 是 
所 有 的 N/2 个 点 对 点 连接 都 允许 无 碰撞 操作 。 开 始 时 的 无 冲突 连接 模式 如 图 中 虚线 
所 示 ， 当 2**6 Fl 37 的 连接 突然 变 为 2e*7 306 之 后 (点 虚线 )， 就 会 发 生 冲 突 ， 
假设 1<+5 Fil 4<>8 的 连接 没有 重新 选择 路 由 路 线 


4.5.4 Mesh 网 络 


FEAR Be] 25 26 FR 25 FA) EK AY Be SEP AY A Se SSR H.R AE PE RIK. soa EAI 
量 布线 的 成 本 让 人 望而却步 ， 因 为 某 些 方面 经 ! 
常会 做 一 些 牺 牲 ， 例 如 减少 每 个 计算 节点 的 对 
分 市 宽 。 为 了 克服 这 个 缺点 ， 一 些 大 型 MPP 机 
at 像 IBM Blue Gene[V114, V115, V116] 和 
Cray XT[V117] 等 经 常 使 用 Mesh W i, H% 
是 多 维 立 方 体 ( 超 立 方 体 ) 的 形式 。 每 个 计算 
三 点 位 于 备 卡 儿 网 格 的 交点 处 。 通 常 超 立 方 体 
的 边 寞 锌 连接 包 囊 起 来 形成 一 个 环 面 拓扑 结构 
(Al 4-18 是 一 个 二 维 环 面 的 例子 )。 不 邻接 的 元 
素 之 间 不 会 直接 相连 。 通 过 这 样 的 系统 路 由 数 
据 时 经 常 使 用 特殊 的 ASIC (Application Specific Al E HH BE X 
Integrated Circuit， 应 用 专门 集成 电路 ) 来 完成 ， \ ~ 2 i | n ` a / 
它 能 够 考虑 到 所 有 的 网 络 流量 ， 而 且 尽 可 能 地 | 
绕 过 CPU。 网 络 直 径 是 所 有 3 个 笛 卡 儿 方向 中 图 418 二 维 环 面 (正方 形 ) 网 络 。 本 例 中 的 
系统 大 小 的 总 和 。 对 分 带宽 规模 为 V 

在 所 有 维度 中 随 着 系统 的 增 大 ， 对 分 带宽 的 规模 并 不 是 线性 增加 而 是 满足 BaN) co Ne 
(其 中 4 为 维度 )， 当 NN 很 大 时 ，B,(N)/N 一 0。 另 外 ， 最 大 延迟 的 规模 为 N”。 尽 管 第 一 眼看 
起 来 这 些 属 性 并 不 让 人 兴奋 ， 但 是 对 于 主要 是 近邻 之 间 通 信 的 大 型 应 用 程序 来 说 ， 环 面 拓扑 
结构 是 一 个 受 欢迎 而 且 很 划算 的 选择 。 如 果 链 路 的 最 大 带宽 远 远大 于 单个 计算 节点 能 够 流入 
到 网 络 中 的 带宽 〈 它 的 注入 带宽 )， 那 么 就 有 足够 的 带宽 能 满足 更 苛刻 的 通信 模式 (如 Cray 
XT 上 大 规模 的 并 行 计算 机 [V 117])。 立 方 Mesh 网 络 的 另 一 个 优点 是 布线 很 少 ， 而 且 大 部 
分 的 连接 线 都 很 得。 与 胖 树 网 络 比 起 来 ， = i i? 
在 带宽 和 延迟 上 有 很 多 不 同 ， 但 是 可 以 预 
见 ， 并 行 工作 时 ， 计 算 节 点 之 间 位 置 比较 
徘 近 ( 同 在 一 个 立方 体 区 域 )。 此 外 ， 由 于 
成 本 或 者 管理 方面 的 原因 ， 当 某 一 个 节点 
的 对 分 市 宽 突然 减少 时 也 不 会 对 系统 的 大 
小 产生 太 大 的 影响 。 

在 一 些小 型 具有 ccNUMA 能 力 的 共享 
内 存 系统 中 ， 简 单 的 Mesh 网 络 常 用 于 局 部 
域 之 间 的 连接 。 图 4-19 是 一 个 使 用 超 传 输 
的 4- 插 槽 系统 的 例子 ， 由 于 两 个 HT 连接 
用 做 IO 连接 : 右边 两 个 局 部 域 中 的 任何 通 
信 都 会 由 另外 两 个 局 部 域 中 的 某 一 个 产生 
额外 的 一 跳 ， 所 以 这 些 节点 实际 上 实现 了 
一 个 异 质 性 的 拓扑 结构 (在 插 横 内 部 的 延迟 
方面 )。 








图 4-19 使 用 HT Mesh 网 络 的 4- 插 权 ccNUMA 系 
统 。 每 一 个 插 模 有 3 个 HT 连接 ， 要 适应 IO 通信 网 
络 必须 为 异 质 性 ， 而 且 要 使 用 全 部 的 HT 端口 


82 RAF 


45.5 混合 网 络 

如 果 某 个 网 络 有 上 述 至 少 两 个 网 络 混合 连接 而 成 ， 则 称 为 混合 网 络 。 由 于 节 间 连接 往 
往 是 总 线 (多 芯片 中 ) 或 者 简单 的 Mesh 网 络 ( 像 HyperTransport 或 者 QuickPath 一 样 具 有 
ccNUMA 能 力 的 立方 体 网 络 )， 所 以 像 图 4-8 一 样 的 共享 内 存 节 点 实现 的 集群 就 是 一 个 混合 
网 络 ， 即 使 它 的 内 部 网 络 并 不 是 混合 的 。 规 模 很 大 时 ， 在 小 数量 的 节点 组 之 间 使 用 立方 体 拓 
扑 然后 再 使 用 胖 树 网 络 组 织 起 来 可 以 有 效 减 少 纯 立 方 体 Mesh 网 络 的 对 分 带宽 问题 。 


习题 
4.1 构建 胖 树 网 络 结构 问题 。 静 态 路 由 的 胖 树 网 络 结构 ， 如 果 链 路 上 spine 交换 机 的 输入 与 输出 比 为 
2 : 3( 参考 图 4-16， 它 的 比例 为 1 : 3)， 则 会 发 生 什 么 问题 ? 


| 第 S 章 


Introduction to High Performance Computing for Scientists and Engineers 


并 行 性 基础 





开始 真正 进行 并 行 编程 之 前 需要 了 解 一 些 并 行 化 的 基本 规则 ， 这 涉及 判断 可 并 行 化 的 
操作 ， 甚 至 是 更 为 重要 的 性 能 瓶颈 。 最 篆 见 的 错误 之 一 是 认为 并 行程 序 在 更 多 的 硬件 上 会 
运行 得 更 快 。 其 实 ， 由 于 超级 计算 机 的 并 行 执行 瓶颈 等 问题 ， 每 年 浪费 数 以 百 亿 计 的 处 理 
An/|\AY o 

本 章 首 先 介绍 向 用 并 行 化 策略 并 对 其 分 类 ， 然 后 在 理论 层次 上 研究 并 行 性 ， 包 括 几 种 简 
单 的 用 来 推断 影响 并 行程 序 性 能 因素 的 数学 模型 。 虽 然 这 些 模型 的 可 应 用 性 和 可 预测 性 有 
限 ， 但 是 它们 提供 了 与 具体 并 行 编程 模式 无 关 的 并 行 化 机 理 。 实 践 编 程 标准 将 会 在 接 下 来 的 
几 个 章节 进行 介绍 。 

5.1 为 什么 并 行 化 

并 行 性 概念 在 大 规模 并 行 机 到 多 核 笔记 本 电脑 等 不 同 平 台中 随处 可 见 ， 然 而 由 于 单 核 处 
理 顺 能 够 满足 其 性 能 要 求 ， 所 以 许多 科学 计算 用 户 并 没有 真正 编写 并 行程 序 。 如 果 单 核 处 理 
希 不 能 满足 其 要 求 ， 那 么 主要 的 两 个 原因 如 下 : 

口 单 核 处 理 需 太 慢 而 不 能 在 合理 的 时 间 内 完成 任务 ， 此 处 合理 的 定义 随 着 环境 的 变化 

而 改变 ,例如 一 天 通常 是 一 个 可 接受 的 范围 。 根 据 需 求 的 不 同 ， 几 个 小 时 可 能 更 为 
合理 。 

O 内 存 需 求 不 能 由 单一 的 系统 满足 ， 例 如 大 规模 程序 (高 精度 、 多 物理 、 多 粒子 等 要 

求 ) 需要 的 内 存量 十 分 巨大 。 

第 一 个 问题 在 多 核 处 理 器 发 展 趋势 下 应 该 是 不 能 避免 的 。 在 并 行 机 出 现 之 前 的 很 长 时 间 
内 ， 第 二 个 问题 通过 称 为 核 外 ( out-of-core) 的 技术 解决 ， 即 绝 大 部 分 数据 集 存储 在 大 规模 
存储 设备 上 ， 只 有 在 需要 时 才 被 加 载 ， 大 多 数 情况 下 这 对 性 能 影响 较 小 。 然 而 ， 峰 值 性 能 和 
IO 带宽 (和 延迟 ) 的 差距 甚至 比 内 存 处 理 器 间 的 差距 增长 得 更 快 ， 所 以 未 来 核 外 技术 也 许 
并 不 能 用 于 串 行 计算 。 当 前 并 行 计 算 机 通过 并 行文 件 系统 提供 高 速 IO 资源 ， 当 数据 来 自 不 


同 数据 源 时 能 达到 最 高 性 能 。 
以 下 各 节 对 各 种 并 行 性 方法 逐一 进行 介绍 。 
5.2 并行 性 


编写 并 行程 序 的 第 一 步 是 分 析 并 行 算法 中 的 并 行 性 。 不 同 的 并 行 性 可 以 通过 不 同 的 并 行 
化 方法 实现 。 本 节 对 常见 并 行 化 方法 进行 介绍 ， 期 望 可 以 启发 读者 阅读 其 他 并 行 化 方法 的 优 
秀文 献 。Mattson 等 [S6] 对 并 行 编程 模式 进行 了 深入 的 介绍 。 本 书 只 介绍 多 核 或 多 节点 上 的 
并 行 性 分 析 方 法 。 第 1 章 和 第 2 章 介 绍 了 细 粒 度 并 发 性 例如 超标 量 处 理 器 或 SIMD 处 理 器 的 
分 析 方 法 。 
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5.2.1 数据 并 行 性 


科学 计算 中 许多 问题 都 涉及 大 量 实验 数据 的 处 理 ， 如 果 计 算 可 以 被 并 行 执行 ， 即 多 处 理 需 
在 不 同 的 数据 上 进行 并 行 计 算 ， 则 称 为 数据 并 行 。 事 实 上 这 是 MIMD 类 型 的 计算 机 上 最 为 常 
用 的 科学 计算 并 行 化 概念 。 它 也 被 称 为 单程 序 多 数据 (Single Program Multiply Data, SPMD) 
模式 ， 即 多 个 处 理 器 以 独立 指令 指针 执行 同样 的 代码 ， 注 意 这 和 SIMD 并 行 概 念 的 区 别 。 

1. 实例 : 中 粒度 循环 并 行 

通过 循环 和 髋 套 循环 处 理 数组 数据 是 大 多 数 科学 计算 程序 的 主要 组 成 部 分 。 典 型 的 例子 
是 线性 代数 操作 中 的 向 量 或 和 矩阵， 例如 标准 BLAS 库 中 的 代码 [N50]， 通 常 每 个 数组 元 素 的 
处 理 是 相互 独立 的 ， 因 此 是 共享 内 存 的 多 个 处 理 器 上 并 行 执行 的 典型 对 象 ( 见 图 5-1 )。 这 种 
并 行 计算 方法 称 为 中 粒度 的 原因 在 于 处 理 器 间 的 任务 分 配 是 可 以 调节 的 ， 甚 至 可 以 分 配 单独 
一 个 元 素 给 某 个 处 理 器 。 与 图 5-1 所 示 的 方法 截然 相反 ， 也 可 以 进行 交替 模式 的 分 配 ， 即 将 
所 有 奇数 (偶数 ) 索引 的 元 素 分 配给 P1 (P2 )。 


do i=1,1000 


a (i)=c*b (i) 


enddo 





图 5-1 中 粒度 并 行 性 实例 ， 循 环 中 的 所 有 和 迭代 分 布 到 两 个 处 理 器 P1 和 P2 上 并 行 执行 (共享 内 存 ) 


OpenMP 是 一 种 基于 指令 和 API 的 编译 融 扩 展 ， 文 持 循 环 代 码 的 数据 并 行 ， 第 6 章 对 
OpenMP 进行 介绍 。 

2. 实例 : 通过 区 域 分 解 进行 粗 粒 度 并 行 化 

物理 过 程 (例如 流体 、 机 械 压 力 、 量 子 场 等 ) 模拟 通常 利用 一 个 非常 简单 的 图 像 对 实际 
问题 进行 刻画 ， 其 中 有 一 个 计算 域 ， 例 如 一 定 规模 的 流体 ， 被 表示 成 具有 一 系列 离散 位 置 的 
网 格 〈 例 如 3.3 节 中 介绍 的 Jacobi 算法 )， 这 些 网 格 不 一 定 是 笛 卡 儿 坐 标 系 的 ， 而 通常 是 适应 
所 使 用 算法 数值 的 限制 ， 模 拟 通常 就 是 为 了 计算 这 些 网 格 点 上 变量 的 数值 。 对 计算 进行 划分 
的 一 种 直接 方法 是 将 网 格 分 配 到 不 同 处 理 器 上 ， 即 区 域 分 解 方法 。 例 如 考虑 一 个 二 维 Jacobi 
MIR, CE nxn 网络 上 更 新 物理 变量 。 区 域 分 解 方 法 将 网 格 划 分 为 N 个子 域 并 分 配 到 V 个 
处 理 器 上 ， 人 例如， 如果 按 了 轴 方 向 将 网 格 划 分 为 条 状 〈 即 代码 清单 3-1 中 的 索引 k)， 每 个 处 
理 硕 将 对 本 地 的 子 网 格 扫 摘 一遍， 每 时 间 间 隔 T 更 新 数组 。 在 共享 内 存 并 行 计算 机 上 ， 所 
有 域 中 所 有 的 网 格 节点 在 下 一 次 处 理 需 同步 之 前 都 可 以 进行 更 新 。 但 是 ， 在 分 布 存储 系统 
上 ， 更 新 域 中 边界 节点 需要 一 个 或 者 多 个 相 邻 节点 处 理 器 的 信息 ， 因 此 在 进行 下 一 次 域 更 新 
之 前 ， 所 有 节点 需要 与 相 邻 子 网 格 节点 处 理 器 进行 通信 ， 为 了 存储 这 些 交 换 的 边界 信息 ， 每 
个 域 必须 存储 一 些 额 外 网 格 节 点 ( 称 为 halo 或 者 ghost, WEI 5-2 ) 。 交 换 信 息 后 ， 每 个 域 可 
以 进行 下 一 次 迭代 ， 因 此 整个 并 行 算 法 等 价 于 串 行 算法 。9.3 节 展 示 了 使 用 MPI 进行 算法 实 
现 的 细节 。 
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图 5-2 ”在 分 布 式 存储 系统 上 使 用 halo (ghost) 层 进行 子 域 间 通 信 的 Jacobi 和 迭代。 每 个 域 的 本 
地 更 新 步骤 完成 后 ， 边 界 点 〈 实 心 部 分 ) 需要 被 复制 到 相 邻 区 域 (阴影 部 分 ) 


因为 多 个 因素 影响 最 优选 择 ， 所 以 如 何 对 整个 网 格 进行 子 域 划分 是 一 个 十 分 困难 的 问 
题 。 首 先 并 且 最 重要 的 是 计算 量 需要 平均 地 划分 到 所 有 子 域 ， 以 防止 某 些 线程 等 待 而 其 他 
一 些 线程 还 在 进行 更 新 计算 ， 即 负载 均衡 问题 ( 见 图 5-5 和 5.3.9 节 )。 在 解决 负载 均衡 问题 
后 ， 需 要 考虑 如 何 降低 通信 开销 。 需 要 通信 的 数据 规模 正比 于 区 域 划分 的 规模 。 比 较 图 5-3 
中 的 两 种 n*n 网 格 二 维 区 域 分 解 ， 第 一 个 条 状 划 分 方法 的 通信 开销 是 6G (n(N-1)), 但 是 最 优 
的 分 解 方 法 为 二 维 划 分 ,通信 开销 为 GO (2n( YN -1))。 因 此 对 于 足够 大 的 处 理 器 数目 W， 最 
优 分 解 方法 的 通信 开销 为 @ (2/ YN )， 实际 是 否 会 与 理论 分 析 有 差距 还 依赖 于 其 他 因素 , 例 
如 问题 规模 。 通 信和 是 提高 程序 性 能 必须 要 考虑 的 开销 ， 除 非 有 其 他 原因 ， 否 则 实践 中 需要 尽 
量 降低 边界 区 域 ，10.4.1 节 提 供 了 更 为 详细 的 讨论 。 

注意 通信 开销 的 计算 与 数据 依赖 的 局 部 性 密切 相关 ， 通 信 开 销 随 着 信息 传递 路 径 的 
增加 而 线性 增加 ， 例 如 ， 为 了 得 到 某 个 量 相 对 于 坐标 的 一 阶 或 二 阶 导 数 ， 仅 需要 相 邻 子 
域 信息 ， 在 图 5-3 中 只 需要 宽度 为 1 的 通信 层 ， 对 于 更 高 阶 的 导数 需要 更 宽 的 通信 层 ， 
如 果 有 类 似 Coulomb 势 一 样 的 大 范围 交互 (1/ 上 距离 )， 需 要 传递 所 有 计算 域 ， 这 样 通信 性 
能 就 是 整个 程序 的 瓶颈 ， 因 此 对 于 这 种 情况 ， 区 域 分 解 方法 不 再 可 行 ， 需 要 寻找 其 他 并 
行 策略 。 





-二 LE 
图 5-3 二 维 Jacobi 区 域 分 解 算法 ， 需 要 相 邻 子 域 信 息 。 左 图 进行 行 块 划分 导致 更 多 通信 ， 右 
图 为 最 优 通信 情况 。 阴 影 格 点 代表 需要 进行 通信 交换 的 信息 


区 域 分 解 方法 的 优势 之 一 是 ， 如 果 问 题 规模 增长 N 倍 ， 则 域 边界 比 域 容量 增长 慢 ， 因 [118] 
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此 为 了 解决 通信 瓶颈 ， 可 以 增 大 问题 规模 。 三 维 区 域 中 选择 最 优 区 域 分 解 策略 并 扩展 问题 规 
模 或 者 任务 数量 的 效果 将 会 在 5.3 节 中 讨论 。 
在 介绍 MPI 接口 之 后 ， 实 现 并 行 Jacobi 区 域 分 解 算 法 的 细节 将 会 在 9.3 节 进 行 讨 论 。 
虽然 Jacobi 算法 的 收敛 性 并 不 十 分 高 效 ， 但 是 它 可 以 作为 更 高 级 算法 的 基础 和 原型 。 
此 外 ， 它 引出 了 一 系列 标量 优化 算法 ， 某 些 算法 在 3.4 节 的 矩阵 转 置 中 会 被 再 次 用 到 Cl 
习题 3.4 ) 。 


5.2.2 功能 并 行 性 


有 时 一 个 庞大 的 数值 问题 的 求解 可 以 分 为 或 多 或 少 相 互 独立 的 子 任务 ， 子 任务 间 通 过 数 
据 交 换 和 同步 协同 工作 ， 而 子 任务 间 在 不 同 的 数据 集 上 执行 不 同 代码 ， 这 也 是 任务 并 行 性 又 
称 为 多 程序 多 数据 (Multiple Program Multiple Data, MPMD) 的 原因 。 但 是 每 个 子 任务 也 
可 以 通过 多 程序 多 数据 模式 在 多 个 处 理 器 上 并 行 执行 。 

功能 并 行 性 在 性 能 方面 有 利 有 闲 ， 当 不 同 的 子 任务 有 不 同 的 性 能 特征 或 者 不 同 的 硬件 需 
求 时 ， 容 易 导 致 性 能 瓶颈 或 者 负载 不 均衡 等 问题 。 另 一 方面 ， 任 务 间 重 释 执行 可 以 极 大 提升 
程序 性 能 。 

心 上 请 上 处 理 硕 核 数量 不 断 增长 并 将 核 分 配给 不 同 任务 ， 下 面 介 绍 几 种 重要 的 功能 并 行 性 
的 变 体 ， 以 此 来 讨论 是 否 进 入 了 功能 并 行 性 时 代 ，11.1.2 节 在 混合 编程 条 件 下 给 出 了 另 一 个 
实例 。 

1. 实例 : 主 从 模式 

保留 一 个 计算 单元 专门 进行 管理 任务 ， 而 所 有 其 他 计算 单元 执行 实际 程序 ， 这 种 模式 称 
为 主 从 模式 ( master-worker 模式 ) 。 主 节点 将 不 同 子 任务 分 配给 从 节点 ， 并 收集 从 节点 的 结 
果 。 一 个 典型 的 应 用 实例 为 并 行 光 线 追 踪 程 序 : 一 个 光线 追踪 器 从 一 个 场景 的 数学 表示 出 发 
计算 现实 图 像 。 对 于 需要 演 染 的 每 一 个 像素 ， 有 一 束 从 图 像 观 察 者 出 发 的 光线 照 到 场景 中 ， 
击 中 场景 中 的 物体 ， 并 进行 反射 ， 依 次 进行 计算 ， 选择 彩色 的 成 分 。 如 果 所 有 的 计算 单元 都 
有 场景 的 一 个 拷贝 ， 则 所 有 的 像素 都 是 独立 的 ， 并 且 可 以 并 行 计 算 。 通 常 由 于 效率 的 因素 ， 
图 像 被 分 为 在 干 工作 单元 〈 按 行 划 分 或 者 分 块 )。 当 一 个 从 节点 计算 完 一 个 工作 单元 后 ， 它 
回 主 节点 请 求 一 个 新 的 子 任务 ， 而 主 节 点 维护 一 个 已 完成 任务 队列 和 一 个 待 完 成 任务 队列 。 
在 分 布 式 系 统 中 ， 一 个 完成 的 工作 单元 将 通过 网 络 进行 通信 。 关 于 主 从 模式 下 实现 并 行 光线 
追踪 的 详细 细节 和 性 能 分 析 参 考 [A80，A81]。 

主 从 模式 的 一 个 缺点 是 ， 当 从 节点 的 数量 很 大 时 ， 单 一 主 节点 可 能 会 产生 通信 和 性 能 
瓶颈 。 
2. 实例 : 功能 分 解 
多 物理 模拟 是 功能 性 分 解 进行 并 行 化 的 主要 应 用 。 例 如 行驶 中 汽车 周围 的 空气 流 可 以 利 
用 并 行 CFD (计算 流体 力学 ，Computational Fluid Dynamics) 代码 。 另 一 方面 ， 并 行 有 限 元 
模拟 可 以 根据 几何 和 物质 特性 描述 不 同 的 汽车 车 身 结 构 和 流体 的 交互 作用 。 两 种 代码 需要 通 
过 有 效 的 通信 和 层 进 行 交 互 协同 计算 。 

虽然 多 物理 代码 非常 流行 ,但 是 由 于 实践 中 很 难 在 不 同 功 能 域 之 间 移 动 或 交互 资源 ， 因 
此 通常 会 导致 负载 不 均衡 问题 。 关 于 负载 不 均衡 问题 的 更 多 信息 请 见 5.3.9 节 。 


HI 


5.3 并行 扩展 性 
5.3.1 限制 并 行 执 行 的 因素 


5.2 节 中 已 经 阐述 过 ， 可 以 在 不 同 维度 开发 并 行 性 。 寻 找 并 行 性 不 仅 局 限于 计算 领域 ， 
而 且 也 在 诸如 制造 、 交 通 流量 控制 甚至 业务 处 理 等 领域 中 发 挥 作 用 。 可 以 将 所 有 的 执行 单 
元 (TA, EFR., FEAA., CPU 等 ) 的 运行 过 程 简单 看 成 执行 固定 时 间 的 工作 ， 这 时 
在 理想 情况 下 ， 利 用 N 个 工人 解决 一 个 顺序 执行 需要 时 间 了 的 工作 需要 的 时 间 为 TIN L 
图 5-4 )， 这 个 值 称 为 加 速 比 。 
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图 5-4 用 三 个 工人 (W1、W2、W3 ) 并 行 化 一 系列 任务 (上 图 ) 获得 完美 加 速 比 CAL) 


不 管 选择 何 种 并 行 化 模式 ,通常 不 会 达到 图 
5-4 所 展示 的 完美 加 速 比 。 前 面 已 经 介绍 过 一 些 原 
Al: 并 不 是 所 有 工作 线程 都 执行 相同 时 间 的 工作 ， 
因为 问题 并 不 能 (或 者 不 可 能 ) 分 为 同等 复杂 度 的 
几 部 分 。 因 此 ， 有 时 有 些 线程 不 得 不 等 待 落后 线程 


( 见 图 5-5 )， 这 种 负载 不 均衡 由 于 没有 充分 利用 资源 
而 影响 了 性 能 。 此 外 ， 一 些 共享 资源 ， 例 如 一 些 被 ”图 5-5 不 同 线程 以 不 同 速度 执行 不 同 任务 
所 有 线程 共享 的 工具 ， 会 导致 并 行 执行 线程 的 串 行 ” 会 导致 负载 不 均衡 。 阴 影 部 分 标识 未 被 使 
化 运行 ( 见 图 5-6 )。 最 后 ， 并 行 工 作 流 会 要 求 一 些 ” 用 的 资源 
任务 间 通 信 ， 从 而 导致 产生 一 些 并 行 执行 特有 的 等 待 开 销 ( 见 图 5-7 )。 所 有 这 些 因素 都 限制 
了 并 行 加 速 比 。 任 务 并 行程 度 通常 用 一 系列 可 扩展 性 指标 来 衡量 ， 如 回答 下 述 问题 : 

O 给 定 入 个 线程 ， 并 行 解决 一 个 问题 最 多 可 以 比 单个 线程 时 快 多 少 ? 

口 给 定 Y 个 线程 ， 可 以 解决 比 单个 线程 时 大 多 少 的 任务 规模 ? 

口 通信 需求 对 并 行 应 用 程序 的 性 能 和 可 扩展 性 的 影响 是 什么 ? 

O 有 多 少 资源 真正 被 用 到 了 解决 问题 的 计算 中 ? 

接 下 来 的 几 小 节 介绍 一 些 重要 指标 和 模型 来 帮助 我 们 解决 上 述 问 题 。 








时 间 
图 5-6 “并行 执行 的 瓶颈 。 任 务 3、7 和 11 ARBAB BHT 
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图 5-7 如 有 果 无 法 与 其 他 计算 重合 ,通信 进程 (箭头 表示 消息 ) 就 限制 了 可 扩展 性 


5.3.2 可 扩展 性 指标 


为 了 定义 可 扩展 性 指标 ,我们 首先 定义 一 些 需要 的 测量 指标 。 一 般 设 所 有 任务 规模 (CT 
作 量 ) 为 stp=1，s 为 任务 中 不 能 并 行 的 部 分 而 p 为 任务 中 可 以 完美 并 行 的 部 分 。 任 务 中 存 
在 不 能 并 行 部 分 的 原因 包括 : 

O 算法 限制 : 有 些 操作 由 于 某 些 原因 不 能 被 并 行 执行 ， 例 如 : 互 斥 依赖 只 能 在 线程 间 
顺序 执行 ， 必 须 以 某 个 特定 排序 执行 。 

O 瓶颈 : 计算 机 系统 中 存在 大 量 共 享 资 源 ， 例 如 核 中 的 执行 单元 ， 多 核 世 片 内 存 中 的 
共享 数据 通路 ，LO 设备 。 对 共享 资源 的 并 行 访问 会 导致 串 行 化 执行 ， 即 使 算法 可 以 
完全 并 行 执行 ， 由 于 共享 资源 的 限制 也 可 能 会 导致 瓶颈 。 

O 局 动 开 销 : 司 动 并 行程 序 的 开销 。 即 使 大 规模 并 行 系统 做 了 深入 优化 ， 启 动 开 销 也 是 
不 能 避免 的 。 特 别 是 当 并 行程 序 执行 时 间 较 短 时 ， 启 动 开 销 对 性 能 就 有 更 大 的 影响 。 

Q 通信 : 不 可 能 完全 实现 系统 各 子 部 分 间 的 完全 并 发 通信 ， 见 4.5 节 。 如 果 并 行程 序 需 
要 通信 ， 那 么 串 行 化 将 不 可 避免 。5.3.6 节 将 把 通信 融和 人 可 扩展 性 指标 中 ， 而 不 只 是 


将 常量 加 入 串 行 部 分 。 
首先 我 们 假定 应 用 N 个 线程 解决 固定 规模 的 问题 。 正 则 化 单线 程 ( 串 行 ) 时 间 
T? = stp (5-1) 
FF ds 
应 用 N 个 线程 解决 需要 的 时 间 为 : 
7f = se (5-2) 


由 于 无 论 有 多 少 线 程 执行 任务 ， 串 行 和 并 行 执行 的 工作 量 都 是 固定 的 ， 所 以 这 个 指标 称 
为 强 可 扩展 ， 此 时 并 行 化 的 目标 为 最 小 化 给 定 问题 并 行 执行 的 时 间 。 
如 果 执 行 时 间 不 是 主要 关注 目标 ， 而 是 由 于 内 存 限 制 ， 希望 在 并 行 执 行 时 处 理 更 大 规 
模 的 问题 ， 就 需要 按 N 的 一 个 指数 规模 扩展 问题 大 小 ， 即 stpN"， 此 处 a 大 于 零 或 者 没有 参 
数 ， 并 且 假 设 问题 的 串 行 部 分 s 固定 。 定 义 可 扩展 问题 (大 小 可 变 ) 串 行 执行 时 间 为 
T:= s+pN" (5-3) 
同样 ， 得 到 并 行 执行 时 间 为 
T?=s+pN*' (5-4 ) 
这 个 指标 称 为 弱 可 扩展 。 通 常 令 o=1, Hib N 的 函数 可 以 用 来 计算 弱 可 扩展 性 ， 但 是 本 
BEH N", 
我 们 将 会 看 到 不 同 的 并 行 性 指标 强调 不 同 的 “性 能 ”意义 会 导致 相反 的 结果 。 


nn vv - a 


5.3.3 简单 可 扩展 性 定律 


程序 加 速 比 可 以 定义 为 固定 规模 问题 的 串 行 时 间 与 并 行 时 间 之 比 。 除 非特 别 声明 ， 下 面 
定义 性 能 为 工作 时 间 。 固 定 规模 问题 stp 的 串 行 性 能 为 : 

















S+p 
一 = 5-5 
Pr T; l ( ) 
并 行 性 能 为 : 
stp l 
p — i 
i Tt (N) 1 一 6 
N 
Pr l in 
Sf 二 一 一 一 二 , Amdahl 定律 (5-7) 
P; l-s 
S+ 
N 


这 样 就 导出 了 1967 Æ [M45] 由 Gene Amdahl 首先 导出 的 Amdahl 定律 。 它 限制 了 当 N 
趋 于 无 穷 大 时 程序 的 加 速 比 为 1/s。 这 个 定律 回答 了 “ 当 利 用 N 个 CPU 并 行 处 理 一 个 问题 时 
所 能 获得 的 最 快速 度 (以 运行 时 间 的 方式 )”， 问 题 的 答案 随 问 题 工作 量 定义 的 不 同 而 不 同 。 
如 果 定 义 的 工作 量 仅 为 计算 中 可 并 行 化 部 分 (必须 合理 地 将 其 定义 为 并 行 部 分 )， 则 对 于 固 
定 规 模 任务 结果 将 会 非常 不 同 。 串 行 性 能 为 : 














Py- = =p (5-8) 
并 行 性 能 为 : 
pp ae (5-9) 
应 用 程序 加 速 比 为 : 
s= i- _ ME (5-10) 


又 寻 出 了 Amdahl 定律 。 这 时 PP Al SPIN) 不 再 相等 。 虽 然 此 时 工作 的 定义 不 同 ， 但 可 
扩展 性 并 没有 改变 。 不 过 性 能 有 一 个 因子 为 p 的 差异 。 

在 弱 可 扩展 情况 中 ， 工 作 量 随 着 CPU 数目 增长 ， 此 时 需要 回答 “给 定 W 个 CPU 可 以 解 
决 比 单个 线程 时 大 多 少 的 任务 规模 ”"， 当 N=1 时 串 行 性 能 为 : 


"O S+p Z ， 
Ps = T =] (5-11) 
EFA (5-3) 和 式 (5$-4 )， 并 行 性 能 为 : 
RN HU) NT E 
这 样 又 与 程序 加 速 比 一 致 。 当 ou=0 时 ( 强 可 扩展 ) 我 们 又 得 到 了 Amdahl 定律 。 当 
0<a<1 时 ， 对 于 较 大 数目 的 处 理 器 ， 有 


So) 





s+ (1—s) N" P a 
P aie i (5-13) 
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这 与 N* 呈 线 性 关系 ， 这 样 ， 弱 可 扩展 性 容许 我 们 突破 Amdahl 定律 的 限制 ， 即 使 对 较 
小 的 a， 也 能 得 到 更 高 的 没有 上 限 的 性 能 。 理 想 情况 为 a=1， 式 (5-12) 简化 为 
S, (a=1 ) =s+ (1-s) N, Gustafson 定律 (5-14) 
即使 对 于 较 小 的 W， 加 速 比 也 与 N 呈 线 性 关系 ， 这 称 为 Gustafson 定律 [M46]。 注 意 加 
速 比 公式 前 半 部 分 依赖 一 个 串 行 比例 s， 这 样 随 着 N 的 增加 ，s 的 比重 变 得 非常 小 。 
与 前 面 的 讨论 类 似 ， 现 在 我 们 将 注意 力 转 移 到 对 工作 量 的 定义 上 来 ， 首 先 假定 工作 量 只 
包括 并 行 执行 部 分 p， 这 样 串 行 性 能 为 : 





P? =p (5-15) 
并 行 性 能 为 : 
pN” (1-s) N" 
pP? = ME -16 
v T? (N) s+ ( 1—s) No! (5 ) 
程序 加 速 比 为 : 


Py N* 
P? ~ 5+ (1-s) Ne-l 

同样 ， 加 速 比 和 性 能 又 有 一 个 因子 为 p 的 区 别 。 相 比 式 (5-14) 而 言 ，a=1 时 程序 加 速 
比 与 呈 线 性 关系 。 所 以 式 (5-17) 说 明 程 序 可 以 被 完全 扩展 。 


5.3.4 ”并 行 效 率 


在 考虑 扩展 性 的 同时 ， 另 一 个 关心 的 问题 是 给 定 资源 的 使 用 效率 如 何 ， 即 CPU 的 计算 
能 力 有 和 多少 被 真正 用 在 了 并 行 任务 的 执行 过 程 中 ( 接 下 来 我 们 假设 当 一 个 线程 执行 程序 串 行 
部 分 时 ， 其 他 线程 均等 待 )。 通 常 并 行 效率 定义 如 下 : 

N 个 CPU 上 的 性 能 。” ”加 速 比 
” Nx1l 个 CPU 上 的 性 能 NW 

因为 a 趋 于 0 时 会 退化 到 Amdahl 定律 ， 我 们 只 考虑 弱 可 扩展 。 当 任务 工作 量 定义 为 

stpN* IY, RITA: 


Se = (5-17) 


(5-18 ) 


S, sN (1-s) 
EO N sN ( 1-s) (5-19 ) 

当 a=0 时 公式 变 为 1/(sN+(1—-s)), Xt Amdahl 定律 的 结果 ， 当 NW 增 大 时 趋 于 0。 当 
a=] 时 我 们 得 到 YN+(1-*)， 这 是 由 于 随 着 CPU 数量 N 的 增加 ， 更 多 的 CPU 时 钟 周 期 被 浪 
费 ， 从 串 行 N=1 时 的 se=s+p=1， 到 N 较 大 时 的 1-s=pz。 甚 至 V 增 大 时 ， 弱 可 扩展 也 使 得 我 
们 至 少 利用 一 部 分 CPU 资源 ， 但 是 浪费 的 CPU 资源 随 着 N 而 线性 增长 。 

当 我 们 将 工作 量 定义 为 pN" 时 ， 有 不 同 的 结果 : 
SP Nz! 
N s+ (1—-s) N™ 

当 a=1 时 得 到 sj=1， 这 意味 着 所 有 的 资源 都 被 充分 利用 。 虽 然 s 较 大 时 大 量 CPU 资源 
未 被 利用 ,但 是 在 弱 可 扩展 性 的 意义 下 ， 我 们 仍 错误 地 认为 没有 浪费 时 钟 周期 。 我 们 举 一 个 
例子 : 假设 某 个 程序 在 并 行 执行 部 分 进行 浮 点 数 运算 ， 并 且 只 占 10% 的 串 行 计算 时 间 ， 利 
用 a=1 时 的 弱 可 扩展 分 析 ， 可 以 得 到 MFlop/s 性 能 与 CPU 数量 的 关系 (如 图 5-8 所 示 )， 虽 
然 使 用 和 N 个 CPU 时 大 部 分 处 理 器 90% 的 时 间 都 在 等 待 ， 但 是 图 中 显示 MFlop/s 性 能 却 随 着 
N 的 增加 而 增加 ， 这 种 方式 的 分 析 会 导致 错误 。 


E= ( 5-20 ) 
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CPU 1 2 3 4 5 
图 5-8 当 任务 工作 量 只 包括 程序 可 并 行 部 分 时 的 弱 可 扩展 。 虽 然 时 间 随 着 CPU 的 增加 完全 可 
H, Besl, 但 当 s>>p 时 有 大 量 资 源 (阴影 部 分 ) 未 被 使 用 


5.3.5 ” 串 行 性 能 与 强 可 扩展 性 

为 了 检查 某 个 性 能 模型 是 否 适用 于 一 个 程序 ， 需 要 测试 处 理 器 可 扩展 性 并 通过 最 小 二 乘 
法 确定 模型 中 的 参数 ， 图 5-9 展示 了 程序 在 两 种 不 同 并 行 体系 结构 中 的 强 可 扩展 性 实例 ， 所 
有 性 能 值 都 归 一 化 到 第 一 个 体系 结构 上 的 单 处 理 需 性 能 ， 通 过 最 小 二 乘法 确定 程序 串 行 部 分 
s 以 满足 Amdahl 定律 ( 式 (5-7 ) )。 


—-— Amdahl s =0.168 
一 一 Amdahl s =0.086 
O—O 体系 结构 1 
O— 体系 结构 2 





图 5-9 在 两 个 不 同体 系 结构 上 基准 测试 程序 的 性 能 与 处 理 器 数目 的 实测 数值 ( 强 可 扩展 )。 虽 
然 单 处 理 器 情况 下 两 个 体系 结构 的 性 能 十 分 接近 ,但 是 由 于 程序 串 行 部 分 s 在 第 二 个 
体系 结构 上 的 数值 较 小 ， 因 此 有 更 好 的 强 可 扩展 性 
可 以 看 到 在 单 核 情况 下 两 种 体系 结构 的 性 能 差别 不 大 ， 但 是 第 二 个 体系 结构 却 有 良好 的 
强 可 扩展 性 ， 这 种 现象 的 原因 在 于 ， 程 序 可 并 行 部 分 为 计算 受 限 ， 然 而 程序 串 行 部 分 为 访 
存 受 限 ， 虽 然 两 个 体系 结构 的 单 核 处 理 器 性 能 峰值 相同 ， 但 是 第 二 个 处 理 器 体系 结构 有 更 宽 
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的 内 存 通路 。 随 着 线程 数量 的 增加 ， 程 序 的 整体 性 能 不 再 依赖 于 计算 速度 ， 而 程序 访 存 受 限 
的 顺序 执行 部 分 变 得 更 为 重要 。 因 此 第 二 个 体系 结构 在 可 扩展 性 方面 表现 较 好 。 这 个 例子 表 
明 不 仅 要 考虑 非 并 行 部 分 的 比例 ， 还 要 考虑 这 段 程序 对 体系 结构 的 具体 需求 ， 并 且 一 个 体系 
结构 上 的 可 扩展 性 并 不 能 一 定 能 移植 到 其 他 体系 结构 上 。 为 了 提高 程序 强 可 扩展 性 的 体系 结 
构 可 能 会 采取 异 构架 构 ， 包 含 一 个 可 以 处 理 程序 串 行 部 分 的 硬件 ， 这 也 适用 于 众 核 处 理 需 
[R39,M47,M48]. 

从 优化 角度 看 ， 强 可 扩展 性 的 增加 最 终 会 受 限 于 程序 中 的 串 行 执行 部 分 (这 是 经 济 学 中 
报酬 递减 法 则 的 一 种 变 体 )。 虽 然 程序 串 行 部 分 性 能 非常 难以 改变 ， 但 是 如 果 第 2 章 和 第 3 
章 提 到 的 标准 标量 优化 方法 可 以 应 用 到 应 用 程序 的 串 行 执行 部 分 ， 就 可 以 改进 强 可 扩展 性 。 
需要 回答 的 问题 是 ， 是 否 需 要 对 应 用 程序 的 并 行 或 者 串 行 部 分 进行 标量 优化 。 注 意 与 可 扩展 
性 不 同 ， 性 能 是 一 个 相对 的 指标 ，Amdhal 定律 可 以 提供 一 个 粗略 的 指导 。 假 设 程序 串 行 部 
分 的 加 速 比 为 G1, FEAT HERE ( 见 式 (5-6)) X: 





( 5-21 ) 


另 一 方面 ， 如 果 仅 优化 并 行 执行 部 分 (以 相同 因子 优化 )， 则 有 : 
l 
l-8 
十 
EN 
上 述 两 个 公式 之 比 决定 交点 ， 即 优化 程序 串 行 部 分 花费 的 线程 数 ; 
pš: Est 





Pr* = ( §-22 ) 





S 





= sy ove ( 5-23 ) 
ste- S 

可 以 看 到 结果 不 依赖 于 &， 并 且 为 加 速 比 达 到 Amdahl 定律 预测 的 最 大 之 值 的 一 半 时 的 
线程 数目 。 如 果 s<<1， 并 行 效率 e=(1-s) /2 接近 0.5， 并 且 及 即使 增 大 NN 也 不 能 再 有 大 幅 
提高 。 这 样 就 需要 首先 优化 程序 并 行 部 分 ， 除 非 程序 代码 的 并 行 效率 非常 差 (可 能 的 主要 原 
因 是 由 于 缺少 内 存 才 对 程序 进行 并 行 化 )。 

然而 ， 需 要 注意 实际 上 对 串 行 和 并 行 部 分 代码 而 言 可 能 无 法 获得 所 倍加 速 比 ， 所 以 交点 
也 会 相应 地 移动 。 在 上 例 中 (参见 图 5-9 )， 并 行 部 分 的 主要 开销 是 性 能 接近 峰值 的 矩阵 乘 算 
法 ， 因 此 在 给 定 时， 加速 串 行 部 分 是 改进 性 能 的 唯一 选择 。 


5.3.6 ”改进 的 性 能 模型 


由 于 底层 模型 可 能 不 再 隐藏 一 些 例如 通信 、 负 载 不 均衡 和 并 行 启动 开销 之 类 的 组 件 ， 因 此 
简单 的 模型 例如 Amdahl 定律 和 Gustafson 定律 就 不 再 适用 。 一 个 简单 的 改进 模型 的 例子 是 包 
含 通信 开销 ， 简 单 起 见 我 们 假定 通信 和 计算 不 能 重 和 到 执行 ( 见 图 5-7 )， 这 个 假设 对 于 大 多 数 并 
行 体系 结构 均 成 立 。 在 计算 并 行 性 能 时 ， 必 须要 加 入 通信 时 间作 为 并 行 运行 时 的 正确 术语 : 

T?*=s + pN* '+c, (N) ( 5-24 ) 

由 于 通信 和 是 并 行 化 导致 的 开销 ， 因 此 通信 开销 cx(V) 不 属于 工作 量 ， 因 此 不 能 算 有 效 工 

作 量 ， 并 行 加 速 比 为 
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we- stpN* s+ (1-5) N" 
~“ T(N) s+(1-s)N='+ca(N) 
有 一 些 ca(N) Pr ME Be, FY AEE E fR RR, tE a REJE — E A fie TSA) PK 
数 。 此 外 ， 我 们 假定 所 有 线程 的 通信 量 都 是 一 样 的 。 在 处 理 器 和 内 存 通信 中 ， 传 递 一 个 消息 
的 时 间 是 启动 通信 时 延迟 时 间 之 和 4 和 流传 输 部 分 时 间 x=n/8B， 其 中 为 消息 长 度 而 B 为 市 

宽 (4.5.1 节 有 一 个 实际 例子 )。 一 些 特殊 情况 如 下 : 

O a=0， 阻 塞 网 络 : 如 果 通 信 网 络 具 有 总 线 特 征 〈 见 4.5.2 节 )， 即 一 个 时 刻 只 允许 一 个 

消息 在 网 络 中 传递 ， 通 信 的 开销 与 处 理 融 数目 YX 无关， 此 时 ca(N)=(x+A)N， 得 到 : 

l N>1 1 
sr (x+4) N etA) N 


可 以 看 到 程序 性 能 受 限 于 通信 性 能 ， 甚 至 对 于 较 大 规模 的 处 理 器 数目 ， 加 速 比 趋 于 0， 
这 是 一 种 常见 的 模式 ， 例 如 某 些 共 享 资源 例如 内 存 通路 、LO 设备 甚至 片上 计算 单元 的 共享 
访问 。 
口 xc=0， 非 阻塞 网 络 ， 固 定 通信 开销 : 如 果 通 信 网 络 可 以 容纳 N/2 个 消息 同时 传递 并 
没有 引起 冲突 ( 见 4.5.3 节 )， 并 且 消 息 大 小 与 处 理 器 数目 NIK, WAT cso(N)=x+4， 
得 到 


(5-25 ) 





( 5-26 ) 





S- 


l N>1 ] 


steed, (5-27) 





9 一 【一 了 
seo em 
这 种 情况 非常 类 似 于 Amdahl 定律 的 情形 ， 程 序 会 在 一 个 比 没 有 通信 时 更 低 的 数值 达到 
最 高 加 速 比 。 
口 a=0， 非 阻塞 网 络 ， 具 有 ghost 层 通 信 的 区 域 分 解 方式 : 在 这 种 情况 下 ， 强 可 扩展 中 
的 通信 开销 随 着 处 理 器 数目 N 的 增加 而 减少 ，ca(N)=xN +4， 对 于 p>0， 当 处 理 器 数 
目 入 增 大 时 程序 性 能 将 受 限于 程序 串 行 部 分 s 和 通信 延迟 ， 得 到 : 


l N>1 1 
S 二 4 





S°= ( 5-28 ) 


s+ +N Pd 
对 于 5.2.1 节 的 例子 而 言 ， 三 维 情况 下 的 区 域 分 解 有 B=2/3。 
口 a=1， 非 阻塞 网 络 ， 具 有 ghost 层 通 信 的 区 域 分 解 方式 : 当 程序 规模 与 处 理 器 数目 N 
线性 同步 增长 时 ， 最 终 每 个 处 理 器 会 达到 一 个 与 W 无关 的 数值 。 在 弱 可 扩展 情况 下 ， 
将 会 达到 线性 可 扩展 性 ， 只 不 过 有 一 个 总 体 的 性 能 降低 因子 : 
stpN >] s+ (1-s) N 
eos = moy (5-29) 
图 5-10 显示 了 四 个 不 同情 况 ，s = 0.05, x= 0.005, 2= 0.001, ##H 45 Amdahl 定律 进 
行 比较 。 注 意 现在 所 使 用 的 模型 与 实际 应 用 程序 的 情况 有 较 大 区 别 。 考 虑 这 样 一 个 例子 ， 一 
个 应 用 程序 的 数据 比 单一 处 理 器 的 cache 大 小 要 大 ， 但 是 小 于 所 有 N. 处 理 器 的 cache 容量 之 
和 。 人 性 能 受 限 因素 例如 程序 串 行 部 分 、 通 信 部 分 等 可 以 忽略 不 计 ， 或 者 是 超 量 补偿 ， 此 时 有 
SANN, SFR ANY 这 种 情况 成 为 超 线 性 加 速 比 ， 只 在 程序 规模 增长 率 低 于 AY 
情况 下 出 现 ， 亦 即 axl, BS 6.2 节 和 习题 7.2。 
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注意 这 些 模型 只 有 在 N>1 的 情况 下 成 立 ， 由 于 串 行 执行 时 没有 通信 开销 ， 因 此 利用 曲 
线 拟 合 过 程 来 确定 某 些 代码 中 的 参数 时 要 忽略 N= 1 的 情况 。 

当 在 并 行 机 上 执行 并 行程 序 时 通常 要 确定 最 优 的 处 理 器 数目 W。 从 用 户 的 角度 看 ， 处 理 
器 数目 入 越 大越 好 ， 这 样 才 能 降低 问题 求解 时 间 。 但 是 这 会 极 大 浪费 资源 ， 性 能 达到 最 大 
时 并 行 效率 会 很 低 。 习 题 5.2 给 出 了 一 个 解决 该 问题 的 性 能 模型 。 注 意 如 果 增 加 内 存 是 并 行 
化 的 主要 原因 ， 那 么 较 低 的 并 行 效率 是 可 以 接受 的 。 





T 10 100 1000 
图 5-10 s = 0.05 时 不 同 模型 下 预测 的 并 行 可 扩展 性 。 除 了 Amdahl 情况 下 ， 其 他 均 设 x= 
0.005, A=0.001 


5.3.7 选择 正确 的 扩展 性 基准 


当代 的 高 性 能 计算 机 的 并 行 性 规模 非常 大 ， 前 面 几 节 我 们 讨论 了 并 行 计 算 机 不 同 的 构建 
方法 : 可 以 是 共享 内 存 多 个 多 核 处 理 器 节点 ， 并 在 不 同 层 次 上 由 通信 网 络 互联 。 因 此 并 行 系 
统 总 是 包含 多 级 层次 化 构件 。 将 并 行 代 码 从 单个 CPU 扩展 到 多 个 CPU 时 需要 考虑 这 种 层次 
化 结构 ， 否 则 将 会 得 到 错误 的 结论 。 

图 5-11 展示 了 程序 在 一 个 4 路 处 理 节点 上 的 强 可 扩展 性 ,假设 程序 遵循 式 (5-26) 给 
出 的 通信 和 模型， 则 应 用 最 小 二 乘法 求解 程序 串 行 部 分 s 和 单个 处 理 器 通信 时 间 k= +A EH ) o 
由 于 在 16 个 核 的 情况 下 加 速 比 约 为 4， 所 以 设 定 s= 0.2， 通 信 开 销 可 以 忽略 不 计 。 但 是 这 
个 估计 比较 粗 烽 ， 特 别 是 处 理 器 数目 较 小 时 。 这 样 我 们 得 到 的 结论 是 节点 内 的 可 扩展 性 的 首 
要 因素 与 程序 串 行 部 分 和 通信 不 同 ， 并 且 式 (5-26) 并 不 是 对 所 有 核 都 有 效 。 图 5-11 中 的 
右 半 部 分 显示 了 归 一 化 到 单 节 点 四 核 处 理 器 性 能 的 可 扩展 性 结果 ， 即 选择 一 个 不 同 的 可 扩 
展 性 基准 。 此 时 式 〈5-26 ) 的 模型 完全 适合 于 此 情况 ， 并 且 产 生 了 不 同 的 拟 合 参数 ， 此 时 通 
信和 参数 是 一 个 重要 的 影响 因子 (s= 0.01, 上 = 0.05 )。 图 5-11 中 的 左 侧 显示 了 一 个 节点 内 的 
可 扩展 性 数值 ， 曲 线 是 一 个 典型 的 内 存 受 限 型 曲线 。 在 一 个 类 似 图 4-4 所 示 的 节点 体系 结构 
上 ， 使 用 双 路 双核 可 能 会 导致 带宽 瓶颈 ， 这 可 以 从 单 核 到 双核 的 非常 有 限 的 加 速 比 中 推断 出 
来 ， 但 是 使 用 另 一 个 处 理 器 的 核心 会 极 大 提升 性 能 。 

总 之 ， 并 行 体系 结构 上 的 可 扩展 性 要 依赖 于 所 选取 的 可 扩展 基准 。 在 典型 的 集群 系统 
中 ， 共 享 内 存 的 多 处 理 器 节点 通过 高 速 网 络 互 连 ， 这 意味 着 节点 内 和 节点 间 的 可 扩展 性 不 
同 。 这 个 原理 也 适用 于 其 他 具有 层次 结构 的 系统 例如 多 路 多 核 共 享 内 存 系 统 ( 见 4.2 节 )， 甚 
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至 在 现代 多 核 处 理 器 中 复杂 的 cache 组 和 线程 结构 (UL 1.4 节 )。 





核 数 


图 5-11 四 路 节点 层次 化 系统 中 的 加 速 比 与 CPU 数目 ， 如 果 选 择 不 同 的 比较 基准 ， 可 扩展 性 
会 有 不 同 的 结果 。 右 侧 子 图 表示 选择 节点 性 能 作为 基准 的 可 扩展 性 。 左 侧 子 图 表示 选 


择 CPU 性 能 作为 基准 的 可 扩展 性 


5.3.8 案例 分 析 : 低速 处 理 器 计算 机 能 否 变 得 更 快 


如 果 并 行 系统 其 他 部 分 都 不 变 而 只 更 
换 一 个 更 慢 的 CPU (或 者 使 用 一 个 未 优化 
的 单 处 理 器 节点 )， 那 么 由 于 通信 相对 于 计 
算 会 降低 开销 比率 ， 所 以 会 改进 应 用 程序 
的 可 扩展 性 。 因 此 一 个 “良好 可 扩展 性 ” 
计算 机 系统 建立 在 低速 CPU 和 良好 的 通信 
网 络 基础 之 上 。 为 了 检验 这 个 推断 ， 我 们 
建立 了 一 个 低速 计算 机 系统 性 能 模型 ， 这 
里 低速 意味 着 串 行 执行 时 间 1>1 而 不 是 1， 
BI CPU 的 处 理 速 度 为 un"。 图 5-12 展示 了 
低速 计算 机 如 何 工 作 ， 如 果 程 序 在 LN 个 
低速 处 理 器 而 不 是 NN 个 快速 处 理 器 上 执行 
并 且 每 个 CPU 的 通信 开销 降低 ， 就 依然 有 
可 能 降低 整体 运行 时 间 。 但 是 这 样 构建 一 
个 并 行 系 统 是 否 真正 有 效 ， 在 此 基础 上 建 
立 一 个 并 行 计算 机 系统 是 否 可 行 还 需要 回 
答 下 列 问 题 : 


N=8 /一 2 





图 5-12 ”如 果 CPU 通信 开销 随 X 增 大 而 降低 ， 那 么 
用 2N 个 低速 CPU( 左 图 ) 而 不 是 个 快速 CPU( 右 图 ) 
会 提升 性 能 。/=2 是 低速 CPU 和 高 速 CPU 的 性 能 比 


D 使 用 wX 个 低速 处 理 器 而 不 是 标准 的 W 个 处 理 器 是 否 会 提高 整体 性 能 ? 
Ch 为 了 依赖 低速 处 理 器 获得 更 高 性 能 ， 通 信 开 销 需要 满足 何 种 条 件 ? 
Q 这 种 情况 对 于 强 可 扩展 性 和 弱 可 扩展 性 是 否 都 成 立 ? 


O 期 望 的 性 能 提升 是 多 少 ? 


D 在 同样 的 功 耗 情况 下 ， 低速 处 理 器 是 否 比 标准 处 理 器 的 机 器 做 更 多 的 工作 ? 
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对 于 最 后 一 个 问题 ， 如 果 不 考 虑 通信 开销 ， 我 们 已 经 在 1.4 节 讨 论 过 类 似 情形 〈 多 核 传 
输 顺 序 )。 额 外 的 低 效 通信 性 能 可 能 会 极 大 地 影响 最 终结 果 。 更 重要 的 是 ，CPU 核 只 占 整 体 
并 行 系统 功 耗 开销 的 一 部 分 ， 只 包括 CPU 的 功 耗 或 性 能 模型 是 不 完整 的 。 因 此 我 们 考虑 其 
他 问题 ， 从 图 5-12 可 以 看 到 一 个 理想 的 性 能 模型 需要 包括 通信 组 件 。 

1. SHAH Fe 

假设 问题 规模 固定 ， 利 用 式 〈5-24 ) 包括 的 通用 通信 模型 ， 低 速 计 算 机 的 加 速 比 为 : 


] 
Se (N) = s+ (1-s) /N+c (N) /u (5:30) 


对 于 />1 和 N>1， 只 要 c(V) 40, 该 式 就 大 于 S-i(MW， 这 样 只 要 考虑 通信 开销 ， 低 速 
处 理 器 就 有 更 好 的 可 扩展 性 。 
由 于 在 相同 加 速 比 的 CPU 上 可 扩展 性 与 串 行 和 并 行 性 能 之 比 相关 ， 所 以 可 扩展 性 
本 身 并 不 是 程序 性 能 的 理想 度量 ,我 们 需要 比较 uN 个 低速 CPU 与 W 个 标准 处 理 器 之 间 的 
性 能 绝对 比值 : 
Sa (uN) _ s+(1-s) /N+c (N) san 
US, (N) pst+(1-s)/N+c (uN) 
如 果 jy>1， 上 式 在 如 下 条 件 下 将 大 于 1, OR: 
c (uN) —c (N) <-s (u-1) ( 5-32 ) 
因此 ， 如 果 假 定 该 条 件 对 所 有 u 都 成 立 ，c(N) 必须 是 NN 的 递减 函数 。 当 s = 0 时 只 要 和 斜 
率 为 负 即 可 ， 即 通信 开销 随 着 和 N 的 增加 而 降低 ， 这 也 是 图 5-12 的 观察 结果 。 
为 了 估计 性 能 提升 大 小 ， 我 们 利用 式 ( 5-28 ) 在 非 阻塞 网 络 中 考虑 笛 卡 儿 坐 标 区 域 分 解 
的 一 个 特殊 例子 ， 性 能 提升 函数 为 : 
Sa (uN) s+(1-s) IN+1+xN* 


Ai, (N) : = 





HAIN : ~ (N) js+ (1-s) /N+A+x (Nu) * (5-33 ) 
这 又 区 分 为 如 下 几 种 情况 : 
O x=0: 没有 通信 带宽 开销 
4s (N) = s+ (1-s) /N+A N-sc00 sti (5-34) 





us+ (1—s) /N+A usta 
该 式 总 小 于 1， 这 样 使 用 低速 CPU 不 会 导致 性 能 提升 ， 并 且 功 耗 的 提升 也 十 分 有 限 。 
a x#0, A=0, xt (5-33) 可 以 近似 为 : 


Aj, (N) ms (stxN P (1-w*)) +O(N A) Ns ( 5-35 ) 
js 4 


很 明显 ， 当 s 关 0, KA OM SR SARA RR, BIRKA N, FRIR EERE 
的 主要 因素 ， 并 且 4d(W<1， 而 对 较 小 的 Y， 如 果 s 较 小 将 会 得 到 4i(N)>1。 
O s=0: 在 强 可 扩展 性 条 件 下 这 个 假设 是 不 现实 的 ， 但 是 这 给 出 了 低速 CPU 能 获得 最 大 
性 能 的 上 线 ， 通 信和 带宽 开销 随 着 N 的 增 大 而 降低 ， 因 此 减少 了 与 x 相关 的 因子 的 系 
数 ， 特 别 是 当 通 信 延 迟 较 低 时 : 
Ni+itxkN N-2,1>0 
Ay, (N) ~ N-4+A+K (Nu)? 
一 般 情 况 下 x 对 0, 4 关 0 并 且 有 0<p<1， 这 是 该 函数 随 着 N 趋 于 无 穷 大 而 无 限 接 近 1, 
并 且 有 最 大 值 Nws=(1--B)/B14， 因 此 最 大 的 性 能 提升 为 : 


1* ( 5-36 ) 
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yp- 

TT’ 其 中 x-5 (5:37) 

该 式 随 着 1 趋 近 于 0 而 接近 必 。 典 型 的 可 扩展 高 性 能 计算 机 系统 通常 配备 的 低速 CPU 
有 2 三 4 三 4， 因 此 对 5.2.1 节 的 例子 而 言 ， 最 优 三 维 区 域 分 解 算法 (B=2/3 ) 理论 上 最 大 的 性 
能 提升 为 1.5SA°™ <S 2.5, 

需要 强调 的 是 s=0 的 假设 在 强 可 扩展 性 分 析 下 并 不 十 分 正确 ， 因 为 就 像 对 较 大 的 而 
言 网 络 通信 延迟 会 占 主 要 开销 一 样 ， 程 序 串 行 部 分 随 着 N 的 增加 也 会 占据 主要 地 位 。 因 此 
在 强 可 扩展 条 件 下 使 用 低速 处 理 顺 的 应 用 范围 比较 有 限 。 

即使 在 技术 上 我 们 可 以 设置 u 为 较 大 数值 并 获得 更 大 性 能 提升 ， 但 是 应 用 程序 要 具有 足 
够 的 并 行 性 以 利用 大 规模 处 理 器 ， 这 不 仅 涉 及 只 关心 程序 串 行 部 分 s 的 Amdahl 定律 ， 该 定 
律 预测 在 处 理 器 规模 增 大 时 程序 串 行 部 分 将 成 为 性 能 瓶颈 ， 并 且 还 受 限 于 程序 并 行 粒 度 ( 流 
体 网 格 数目 或 者 例子 数量 等 )， 这 也 限制 了 可 以 利用 的 线程 数目 。 

2. 严格 弱 可 扩展 

应 用 Gustafson 可 扩展 性 (工作 量 与 MARERE) 与 通用 通信 模型 ， 低 速 计 算 机 的 加 速 


比 为 : 


Ay =A; (Nua) = 


[s+C1—s)N]/(u +e(N)) s+ (1-s) N 





S, (N) = ra “Tre ie ( 5-38 ) 
F EM At PRIA F : 
AY (N) := Su (uN) [s+ (1-s) wN][1 +e (N) ] cont 


pS (N) [s+ (1-s) N]fute (uN) ] 
忽略 程序 串 行 部 分 s， 如 果 c(N)>c(uN)/u, HXKF 1, ENEA RAT AT WA ee Ak E 
anal A N 的 增长 而 提高 ， 但 是 增长 率 要 小 于 线性 增长 。 
依然 选取 和 华 卡 儿 坐 标 区 域 分 解 算法 来 进行 定量 分 析 ， 弱 可 扩展 性 增加 了 通信 开销 ， 并 且 
通信 开销 独立 于 处 理 器 数目 N， 见 式 (5-29), 7: =x+4， 低速 计算 机 的 加 速 比 为 : 





s+ (1-s) N 
Su (N) -ei ( 5-40 ) 
Al CPE RER E PRI RUN F : 
wy , _ Su (uN) _ (1+ 7) [s+ (1-s) aN] 
Al (N) : uS., ON” ia N Ci say ( 5-41 ) 


O 7 =0: 不 考虑 通信 开销 
: _ (1-s) AN ol 
An (N) =- ias) Nis a1 OS) ( 5-42 ) 
非常 类 似 于 强 可 扩展 情况 式 ( 5-34 )， 该 式 小 于 1. 
Os=0: 如 果 程 序 具 有 完全 并 行 性 ， 并 且 vol, 那么 性 能 效益 函数 大 于 1， 并 且 独 立 于 
处 理 需 数目 N: 


147 >27 
AN ma 
1+ Ñ /u 1>1, u ( 5-43 ) 


AMR BDA I RA REER. BEX Z =1， 即 通信 开销 等 于 串 行 执行 时 的 开销 ， 
那么 当 4 取 典 型 值 2 二 1 三 4 时 , (LA 1.33 SAY <1.6. 
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上 面 我 们 假定 选用 4 倍数 目的 低速 处 理 器 处 理 oe FAY Te, RRA a ST 
展 ， 在 不 同 的 问题 规模 上 比较 快速 和 低速 处 理 器 ， 但 是 这 并 不 具有 很 强 的 现实 意义 ， 特 别 是 
实际 的 运行 时 间 也 相应 增长 ， 从 程序 性 能 效益 函数 4% 的 角度 看 ， 即 使 其 数值 大 于 1， 也 忽 
视 了 更 重要 的 解决 时 间 数 值 。 如 果 AN Sm 则 该 问题 可 以 被 补偿 ， 但 是 从 式 〈5-43 ) 得 知 该 假 
设 不 可 能 成 立 。 
3. 改进 的 弱 可 扩展 
实际 中 应 该 将 问题 规模 增长 为 X 倍 (标准 处 理 锅 数目 )， 而 不 是 Uv 倍 ， 这 样 低 速 CPU 
的 内 存 配置 相应 地 可 以 小 4 倍 ， 这 才 是 高 性 能 计算 系统 中 常用 的 可 扩展 概念 ， 这 个 性 能 模型 
包括 了 弱 可 扩展 和 强 可 扩展 。 
必须 区 分 线程 数量 和 问题 规模 情况 下 的 收益 男 数 ， 因 此 初始 的 加 速 比 昌 数 为 : 
[s+ (1-8) W]/[us+u (1—s) W/N+c (NIW) ] 
[s+ (1-s) ]/u 
s+ (1-s) W 
~ s+ (1-s) WiN+c (NIW) p` ( 5-44 ) 
这 里 NN eR Roe, W RRP PARR. WR W =N 并且 c(1)= 各 则 该 式 变 为 严 
格 弱 可 扩展 性 。 式 中 c(N/W) 一 项 表示 强 可 扩展 组 件 ， 当 N > WV 时 能 有 效 降低 通信 开销 ， 这 
样 就 得 到 改进 的 弱 可 扩展 性 收益 因数 如 下 : 
Su (uN, N) 1+c (1) 
uS™2 (N,N) 1+s (u-1) +c (pu) 
H FHRA AM ON SB uN 时 我 们 保持 问题 规模 不 变 ， 所 以 该 式 特别 之 处 在 于 其 值 
与 处 理 器 数目 和 无 关 ， 当 N= 1 时 ( 见 式 (5-32 )) 该 式 的 性 能 提升 值 与 式 (5-32) 强 可 扩展 
性 相同 : 


Sm? (N,W) = 


AM™ (N) 3 = ( 5-45 ) 


c (u)—c (1) <—s (u-1) ( 5-46 ) 
考虑 笛 卡 儿 坐 标 区 域 分 解 算法 ， 得 到 c()=4+xx*， 因 此 有 
a 1+A+K 
ae = l+s (u-1) +A+Ku? (5-47) 
当 s=0 并 且 根 据 x 和 4 中 的 顺序 有 : 
Al’ (N) =1+ (1- ) x- (14) Mk+G( re) ( 5-48 ) 


可 以 看 到 通信 和 带宽 开销 «是 该 式 的 主 项 ， 所 以 与 式 (5-43) 所 展示 的 严格 弱 可 扩展 性 
不 同 ， 延 迟 在 这 里 不 占 主要 地 位 。 即 使 对 x=1，4=0,， p=2/3 并 且 2 三 4 时 ， 481.23 
A™ S 1.4, 一 般 而 言 ， 如 果 具 有 和 较 大 的 带宽 开销 和 较 低 的 延迟 ， 改 进 的 弱 可 扩展 是 衡量 拥 
的 低速 处 理 器 的 并 行 计算 机 系统 的 一 个 比较 合理 的 模型 ， 它 对 4 的 依赖 不 大 ， 并 且 当 4 趋 于 
无 穷 大 时 性 能 提升 趋 于 1+x。 

总 之 ， 我 们 从 理论 上 分 析 了 使 用 低速 处 理 器 构建 大 规模 并 行 系统 的 可 能 性 ， 再 结合 功 
耗 开销 和 应 用 程序 性 能 的 降低 ， 就 可 以 在 一 定 程度 上 解决 “ 功 耗 - 性 能 困境 ”， 这 也 是 IBM 
Blue Gene 超级 计算 机 系统 的 实际 解决 方案 [V114,V115]。 但 是 要 注意 并 不 是 所 有 的 程序 都 
适用 于 大 规模 并 行 系统 ， 并 且 在 达到 良好 可 扩展 性 的 各 个 方面 都 需要 平衡 (例如 构建 完全 非 
阻塞 胖 树 网 络 通信 系统 成 本 非常 昂贵 ) 。 


5.3.9 负载 不 均衡 
没有 经 验 的 HPC 程序 员 在 试图 寻找 并 行程 序 扩展 性 差 的 原因 时 ， 精 力 往往 集中 在 所 
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使 用 平台 的 硬件 细节 和 所 使 用 的 并 行 方法 的 缺点 与 不 足 ( 如 通信 开销 、 同 步 丢 失 、 伪 共享 、 
NUMA 本 地 化 以 及 带宽 瓶颈 等 ) 上 。 当 所 有 这 些 缺 陷 成 为 扩展 性 差 的 可 能 原因 时 (本 书 的 其 
他 章节 会 详细 讨论 )， 负 和 载 不 均衡 往往 被 忽略 。 当 有 些 工作 线程 比 其 他 线程 更 早 达到 同步 点 
时 ( 见 图 5-5 )， 负 载 不 均衡 发 生 ， 此 时 就 会 导致 至 少 一 个 工作 线程 处 于 空闲 状态 而 其 他 线程 
依旧 在 执行 有 用 任务 ， 从 而 导致 资源 的 低 效 利用 。 

如 果 没 有 对 任务 分 配 情况 的 进一步 假设 ， 很 难 通过 一 个 简单 模型 来 表征 负载 不 均衡 所 时 
致 的 结果 。 对 性 能 的 影响 也 同样 不 容易 判断 : 如 图 5-13 所 示 ， 当 有 些 工 作 线 程 到 达 同 步 点 
的 时 间 较 晚 (“ lagger”) 时 ， 会 导致 其 他 大 多 数 工 作 线程 ( 即 主 要 工作 线程 ) 空闲 等 待 一 段 
时 间 ， 从 而 导致 明显 的 性 能 损失 。 但 为 一 方面 ,一 些 极 少数 “ speeder” 即 完成 任务 较 早 的 
线程 ， 可 能 对 性 能 影响 不 大 ， 因 为 累积 的 线程 等 待 时 间 可 以 忽略 (参见 图 5-14 )。 


时 间 时 间 








work Uy; h, 








同步 点 | 同步 点 


图 5-13 ”少数 工作 线程 为 “lagger” 的 负载 图 5-14 ”少数 线程 为 “ speeder” 的 负载 不 均 
不 均衡 现象 (这 里 只 有 一 个 )。 大 量 的 资源 MAR (这 里 只 有 一 个 )， 资 源 的 低 效 利 用 有 
没有 得 到 充分 利用 (阴影 线 区 域 ) 可 能 是 可 以 接受 的 


导致 负载 不 均衡 的 原因 是 多 方面 的 ， 一 般 可 分 为 两 类 : 一 是 算法 原因 ， 应 通过 改进 或 者 
选择 完全 不 同 的 算法 来 解决 负载 不 均衡 问题 ; 二 是 优化 原因 ， 应 通过 修改 完善 代码 解决 负载 
不 均衡 问题 。 然 而 ， 有 时 候 这 两 者 又 不 容易 区 分 : 

口 所 选择 的 在 多 个 工作 线程 间 分 配 任务 的 方法 可 能 与 问题 结构 不 兼容 。 以 3.6.2 节 讨 论 

的 分 块 IDS 黎 玻 和 矩阵 回 量 乘 算法 为 例 ， 在 多 线程 任务 分 配 时 ， 可 采用 连续 任务 分 配 
算法 : 即 遍历 整个 循环 (循环 变量 ib)， 为 每 个 线程 分 配 连 续 的 一 组 任务 分 块 。 由 于 
JDS 的 存储 机 制 ， 这 样 的 任务 分 配 (根据 实际 的 矩阵 结构 ) 可 能 会 导致 负载 不 均衡 。 
这 是 因为 随 循 环 计 数 融 的 增 大 ,循环 迭 代 在 矩阵 中 的 作用 域 越 向 下 ， 相 对 应 的 对 角 
线 数量 就 越 少 。 在 这 种 情况 下 ,使 用 循环 任务 分 配 甚至 动态 分 配 是 比较 好 的 选择 。 
如 编写 共 至 内 存 并 行程 序 ， 这 将 非常 容易 实现 (参见 6.1.6 节 )。 

O 无 论 选用 哪 种 并 行 方 法 (参见 5.2 节 )， 在 程序 编译 时 可 能 无 法 确定 处 理 一 个 工作 块 
所 宕 的 时 间 。 例 如 ， 为 达到 某 收 敛 条 件 ， 需 要 每 个 工作 线程 执行 一 定数 量 的 循环 迭 
代 。 因 为 每 个 工作 线程 所 要 执行 的 迭代 次 数 可 能 不 相同 ， 所 以 该 算法 本 质 就 是 负载 
不 均衡 的 。 

CO 粗 粒度 问题 可 能 会 限制 可 用 的 并 行 性 。 当 工作 线程 的 数目 明显 不 少 于 可 分 配 的 任务 的 数 
量 时 ， 这 种 情况 经 常会 发 生 。 开 发 额外 的 并 行 性 (如果 存 在 的 话 ) 可 以 缓解 这 类 问题 。 
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O 尽管 任务 的 不 均匀 分 配 是 导致 负载 不 均衡 的 最 主要 原因 ， 但 是 也 存在 着 其 他 因素 ， 
如 果 一 个 工作 线程 不 得 不 等 待 某 一 资源 (如 IO 或 者 通信 设备 )， 虽 然 这 样 的 等 待 
时 间 不 能 算 作 有 效 工 作 时 间 ， 但 依然 可 以 引起 工作 延迟 ， 将 这 个 工作 线程 转变 为 
“lagger”( 这 里 不 能 与 操作 系统 拌 动 混淆 ， 详 细 请 参考 下 一 节 讨 论 )。 除 此 之 外 ， 这 种 
类 型 的 开销 往往 具有 统计 性 ， 引 发 不 稳定 的 负载 不 均衡 现象 。 

如 果 负 和 载 不 均衡 确定 是 影响 性 能 的 主要 因素 ， 则 应 该 考虑 是 否 有 不 同 的 任务 分 配 策 略 可 
以 消除 (至少 减 少 ) 负载 不 均衡 现象 。 当 完全 均衡 的 任务 分 配 不 能 实现 时 ， 消 除 “ lagger” 
可 能 足以 大 幅 提 高 可 扩展 性 。 此 外 ， 通 过 重 倒 有效 任务 的 执行 来 隐藏 TO 和 通信 开销 也 是 避 
免 负载 不 均衡 的 方法 [A82]。 

操作 系统 抖动 

近期 在 大 规模 商业 并 行 系统 构建 时 ， 发 现 了 一 个 特殊 而 有 趣 的 导致 负载 不 均衡 的 原因 ， 
这 个 原因 会 引发 令 人 意外 的 结果 [L77]。 最 标准 的 分 布 式 存 储 并 行 计 算 机 的 安装 方法 为 各 节 
点 独立 运行 ， 所 有 节点 都 安装 独立 的 操作 系统 。 操 作 系 统 会 负责 很 多 日 常 工作 ， 运 行 用 户 
程序 只 是 其 中 一 项 任务 。 不 管 什 么 时 间 ， 操 作 系 统 的 常规 任务 如 写 日 志文 件 、 提 供 性 能 指 
标 、 清 空 磁盘 cache 区 、 启 动作 业 系 统 等 ， 会 抢占 运行 资源 ， 一 个 正在 运行 的 应 用 程序 进程 
可 能 会 被 延迟 。 由 于 负载 不 均衡 ， 这 个 “lagger” 将 在 下 一 同步 点 使 并 行程 序 的 执行 略 有 延 
迟 。 然 而 ， 当 这 种 情况 不 经 常 发 生 并 且 进 程 数量 非常 少时 ， 这 个 延迟 是 可 以 忽略 的 〈 参 见 图 
5-1$a)。 当 然 ， 确 切 的 延迟 取决 于 操作 系统 的 活动 周期 和 同步 频率 。 

不 幸 的 是 ， 当 工作 线程 数量 大 规模 增加 时 ， 人 情况 就 会 发 生变 化 。 这 是 因为 “操作 系统 噪 
声 ” 对 所 有 工作 线程 的 影响 具有 统计 性 。 工 作 线 程 数量 越 多 ， 两 个 连续 同步 点 间 发 生 延 妈 的 可 
能 性 就 越 高 。 当 代码 中 同步 点 的 频率 和 噪声 引发 延迟 的 平均 频率 接近 时 ， 负 载 不 均衡 现象 将 会 
频繁 发 生 。 这 个 现象 也 称 “ 共 振 ”[L77]。 图 5-15b 展示 了 这 种 现象 的 一 个 缩 略 场景 。 注 意 ， 在 
大 规模 并 行 系统 中 ， 这 个 性 能 限制 是 非常 严重 的 ， 因 为 实际 应 用 程序 面 对 的 不 仅 是 几 十 或 者 几 
百 个 计算 节点 。 在 一 些小 规模 系统 中 也 存在 性 能 抖动 现象 ， 但 它们 与 操作 系统 抖动 无 关 。 

除 尽 可 能 减少 操作 系统 活动 (如 关闭 未 使 用 的 守护 进程 、 轮 询 和 日 志 功 能 ， 或 者 每 个 节 
点 设 一 个 专用 处 理 器 处 理 操作 系统 任务 ) 外 ,减少 操作 系统 拌 动 的 一 个 有 效 方法 是 为 所 有 的 
工作 线程 同步 不 可 避免 的 、 周 期 性 的 操作 系统 活动 (参见 图 5-15c)。 即 在 一 个 相同 同步 点 对 
齐 所 有 工作 线程 延 返 ， 这 种 情况 下 ， 性 能 损失 不 会 大 于 情况 a。 然 而 ， 这 些 不 是 标准 的 处 理 
方法 ， 而 且 需 要 对 操作 系统 做 本 质 的 改变 。 尽 管 如 此 ， 随 着 大 规模 并 行 计 算 机 节点 和 核 数 的 
增多 ， 消 除 操作 系统 噪声 可 能 很 快 成 为 这 些 大 规模 并 行 计 算 机 的 共同 特点 。 





图 5-15 ”假设 操作 系统 相关 延迟 (交叉 阴影 区 域 ) 以 一 定 概率 发 生 。 当 工作 线程 数目 非常 少时 ， 
对 并 行 性 能 的 影响 可 能 也 非常 小 a) ; 增加 线程 数目 ( 弱 可 扩展 性 场景 下 )， 会 增加 在 
下 一 个 同步 点 前 操作 系统 延迟 发 生 的 可 能 性 ， 从 而 延长 整体 运行 时 间 b); 机 器 上 的 所 
有 操作 系统 都 同步 操作 系统 行为 以 消除 “操作 系统 抖动 "， 可 提高 程序 性 能 c)( 图 片 改 
编 自 [L77]) 
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图 5-15 (4) 


习题 
51 通信 与 计算 重合 。 如 果 通 信和 计算 可 以 重 琶 (假设 硬件 支持 并 且 制 定 了 相应 的 算法 )， 如 何 对 
5.3.8 节 讨 论 的 性 能 较 差 的 处 理 器 的 强 可 扩展 性 分 析 做 本 质 改变 ? 要 考虑 如 果 通 信 时 间 超 过 计算 ”|139 
时 间 ， 两 者 不 会 完美 重 释 的 情况 。 140 
5.2 ”选择 最 优 的 工作 线程 数量 。 如 果 一 个 应 用 程序 的 可 扩展 性 表现 为 性 能 饱和 或 者 随 N 的 增加 反而 下 
降 ， 就 会 随 之 产生 选择 最 优 工作 线程 数量 的 问题 。 在 这 种 情况 下 ， 程 序 员 不 会 去 选择 性 能 最 优点 
(或 者 接近 饱和 点 )， 因 为 并 行 效率 已 经 非常 低 了 。 真 正 需要 的 是 一 个 不 鼓励 使 用 过 多 工作 线程 的 
“成 本 模型 ” 。 绝 大 多 数 计算 中 心 以 “CPU 的 时 钟 时 间 ” 作 为 计算 时 间 收 费 ， 即 使 用 N 个 CPU iZ 
行 时 间 为 Tw， 总 计 费 时 间 与 NT, 成 比例 。 对 于 用 户 来 说 ， 最 小 化 时 钟 时 间 ( 即 解决 问题 时 间 ) 和 
成 本 需要 提供 一 个 合理 的 平衡 。 假 定 通 信 开 销 一 定 ( 即 延迟 受 限 情况 ) 的 强 可 扩展 性 分 析 ， 请 给 
出 最 优 工作 线程 数量 Nope 的 一 个 条 件 。Nop 个 工作 线程 会 带 来 什么 加 速 化 ? 
5.3 同步 操作 的 影响 。 同 步 所 有 的 工作 线程 是 非常 耗 时 的 ， 因 为 同步 操作 引发 的 成 本 与 工作 线程 数 
量 的 比例 在 对 数 和 线性 之 间 。 对 于 强 扩 展 性 和 弱 扩 展 性 ， 同 步 的 影响 分 别 有 哪 些 ? 
54 ”加 速 设备 。 当 前 ， 为 标准 计算 节点 配备 加 速 设备 越 来 越 流行 。 这 个 想法 的 一 个 常见 改变 是 在 标准 
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计算 节点 〈 例 如 ， 由 两 个 多 核 芯 片 组 成 ) 的 一 个 IO FY eee BE ESP ee 
作 ， 加 速 硬件 的 性 能 要 比 主机 CPU 高 几 个 数量 级 ， 但 是 其 可 用 内 存 一 般 要 比 主 机 CPU 小 得 多 。 
将 应 用 程序 移植 到 计算 设备 上 需要 确定 要 进行 移植 代码 片段 。 如 果 这 部 分 代码 在 加 速 设备 上 的 加 
HEE a ， 要 至 少 取得 90% 的 性 能 提升 ， 请 计算 原始 代码 的 移植 量 (移植 到 加 速 设备 ) ? 限制 内 
存 大 小 的 意义 是 什么 ? 
I4) 55 用 性 能 数据 愚弄 大 众 。 强 烈 建议 读者 阅读 David H. Bailey 的 幽默 文章 “用 并 行 计算 机 的 性 能 结果 
142 愚弄 大 众 的 12 种 方法 ”[ST]。 尽 管 这 篇 论文 写 于 1991 年 ， 但 是 很 多 观点 依旧 非常 中 肯 。 
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使 用 OpenMP 进行 共享 存储 并 行 编程 





在 多 核 时 代 ， 单 权 单 核 系 统 除 在 人 艇 人 式 市 场 还 存在 ， 但 在 其 他 领域 已 经 基本 消失 。 人 性 价 
比 这 一 关键 因素 主要 用 来 衡量 每 个 槽 有 多 个 核 (可 能 为 多 个 芯片 ) 的 双 槽 机 制 中 。 尽 管 没 有 
共享 内 存 的 概念 依然 可 以 运行 多 进程 程序 ， 但 是 基本 的 并 行 编程 理应 从 共享 内 存 角 度 出 发 。 
请 参考 第 9 章 的 分 布 式 存储 并 行 编程 的 相关 内 容 。 

共享 内 存 编 程 并 非 多 核 时 代 的 发 明 。 多 处 理 器 ( 单 核 ) 系统 已 经 出 现 数 了 十 年 ， 而 合 
适 的 可 移植 编程 接口 也 在 20 世纪 90 年 代 被 开发 出 来 ， 其 中 最 出 名 的 是 POSIX 线程 。 基 
本 的 共享 内 存 并 行 编程 的 限制 和 瓶颈 及 其 他 的 并 行 模型 类 似 (请 见 第 5 章 ) 而 其 与 众 不 同 
的 特性 将 在 第 7 章 曾 述 。 本 章 的 目的 是 大 致 介绍 如 今 最 主流 的 共享 内 存 编程 标准 OpenMP. 
OpenMP 自 当 前 标准 版 (3.0) 起 已 用 C、C++ 和 Fortran 语 言 实现 。 一 些 用 来 优化 的 
OpenMP 结构 将 主要 在 第 7 章 介 绍 。 

需要 补充 的 是 ， 有 些 用 C++ 实现 的 特有 解决 方案 在 某 些 方面 提供 了 比 OpenMP 更 好 的 
功能 ， 例 如 英特尔 线程 构件 (Intel Threading Building, TBB) [P10]。 鉴 于 目前 基于 编译 器 
的 自动 共享 内 存 并 行 化 除了 一 些 常见 情况 之 外 无 法 达到 预期 效果 ， 我 们 将 特意 忽略 它 。 


6.1 OpenMP 简介 


共享 内 存 能 够 提供 所 有 处 理 器 及 时 访问 所 有 数据 的 可 能 性 而 避免 显 式 通信 。 不 幸 的 是 ， 
对 于 科学 软件 尤其 是 循环 中 心 程序 ，POSIX 线程 并 不 是 一 个 合适 的 并 行 编程 模型 。 由 于 这 
个 原因 ， 编 译 器 供应 商 共 同 努 力 确立 共同 标准 ， 即 是 OpenMP. OpenMP 就 是 一 系列 的 编译 
器 指令 ， 对 于 不 支持 OpenMP 的 编译 器 来 说 这 些 指令 将 被 当 作 注释 忽略 。 因 此 ， 一 个 良好 
的 并 行 OpenMP 程序 应 该 也 是 一 个 合法 的 串 行 程序 (这 当然 不 是 强制 要 求 ， 但 是 它 极 大 的 有 
助 于 简化 开发 和 调试 )。 一 个 OpenMP 程序 核心 实体 是 线程 而 非 进 程 。 因 为 几 个 线程 能 够 共 
享 一 块 公 共 地 址 空间 和 互 斥 访问 数据 ， 所 以 线程 又 称 为 “ 轻 量 级 进程 ”。 相 对 于 创建 一 个 进 
程 ， 开 启 一 个 线程 的 代价 更 小 ， 这 是 因为 除了 程序 计数 器 、 指 令 指针 (下 一 个 即将 执行 的 指 
令 的 地 址 ) 栈 指针 和 寄存 器 状态 外 ， 线 程 将 共享 一 切 。 每 一 个 线程 通过 局 部 栈 指针 能 够 拥有 
“私有 ”的 变量 ， 但 是 既然 所 有 的 数据 可 以 通过 共享 内 存 空 间 访 问 ， 那 么 所 有 其 他 线程 只 需 
要 获取 该 变量 指针 便 可 访问 。 但 是 , OpenMP 标准 实际 上 禁止 其 他 线程 访问 线程 的 私有 对 象 。 
随后 我 们 可 以 清晰 地 看 出 这 是 个 好 的 想法 。 

我 们 将 集中 精力 于 OpenMP 的 Fortran 接口 ， 并 且 会 在 合适 的 时 候 指 出 它 与 C/C++ 接口 
重要 的 区 别 。 


6.1.1 并 行 执行 


任 一 OpenMP 程序 启动 后 ， 一 个 单线 程 即 主线 程 会 立即 运行 。 并 行 执行 真正 存在 于 任 
意 数 量 的 并 行 区 域 中 。 在 两 个 并 行 区 域 之 间 ， 除 了 主线 程 执行 代码 外 ， 其 他 任何 线程 将 不 执 


104 BOF 


行 。 这 就 是 所 谓 的 “ fork-join 模型 ”( 请 参考 图 6-1 )。 在 一 个 并 行 区 域 里 ， 一 个 线程 组 并 发 
地 执行 指令 。 不 同 的 并 行 区 域 可 能 有 不 同 数量 的 线程 。 


图 6-1 OpenMP 线程 模型 操作 : 主线 程 “forks” 一 组 作用 于 共享 内 存 的 并 行 区 域 的 线程 。 并 
行 区 域 结 束 后 ， 这 组 线程 “joined” 一 起 ， 也 就 是 ， 终 止 或 者 挂 起 直到 先 一 个 并 行 区 域 
开始 。 不 同 并 行 区 域 的 线程 数 可 能 不 同 


OpenMP 是 将 原始 操作 系统 线程 接口 进行 适 配 以 使 其 拥有 更 易于 被 数值 软件 典型 结构 
采用 的 层次 。 在 实践 中 ，Fortran 并 行 区 域 分 别 被 ! 8SOMP PARALLEL 所 初始 化 和 被 !SOMP 
END PARALLEL 所 结束 。!$OMP 字符 串 即 是 所 谓 OpenMP 指令 开始 的 标记 (在 C/C++ 中 
使 用 #pragma omp )。 在 一 个 并 行 区 域 中 ， 每 一 个 线程 包含 一 个 唯一 标识 符 ， 即 它 的 线程 
ID， 取 值 为 零 到 线程 总 数 减 一 ， 并 且 能 够 被 omp_get thread_num() API 获取 。 


use omp_lib ! module with API declarations 


1 
2 

3 print *,’I am the master, and I am alone’ 

4 !§$OMP PARALLEL 

5 call do_work_package (omp_get_thread_num() , omp_get_num_threads () ) 
6 !$OMP END PARALLEL 


omp_get_num_threads() pki UR E] = Ay IF ÍT X PT RAR. omp_lib 模块 包 
& API xE X (5 Hl] A Fortran 77 和 CC++ 实 现 的 包含 文件 mpifh 和 omp.h)。 在 OMP 
PARALLEL 和 OMP END PARALLEL 之 间 的 代码 ， 包 括 子 过 程 调 用 ， 这 个 子 过 程 被 每 一 
个 线程 调用 。 最 简单 的 情况 是 ， 线 程 ID 用 来 区 别 不 同 线程 所 执行 的 任务 ; 上 面 例子 中 是 
通过 将 子 过 程 线 程 ID 和 线程 总 数 作为 参数 调用 do work package) 实现 。 采 取 这 种 方式 的 
OpenMP 等 价 于 POSIX 线程 编程 模型 。 

Fortran 和 C/C++ 的 OpenMP 之 间 一 个 重要 的 区 别 需 要 在 这 里 强调 。 在 C/C++ 中 ,没有 
end parallel 指令 ， 这 是 因为 所 有 的 指令 应 用 于 随后 的 语句 或 者 结构 块 。 上 面 例子 在 C++ 中 
实现 如 下 : 
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l 
2 
3 
4 
5 
6 
7 


#include <omp.h> 


std::cout << "I am the master, and I am alone"; 
#pragma omp parallel 
{ 


do_work_package (omp_get_thread_num() , omp_get_num_threads() ) ; 


花 括 号 在 此 情况 下 可 以 省 略 ， 但 是 事实 上 一 个 结构 块 隶 属于 对 数据 域 有 影响 的 并 行 执行 
(参考 下 面 )。 


实际 


运行 的 线程 数量 在 编译 时 并 不 确定 。 在 运行 之 前 可 以 通过 环境 变量 设置 : 


| $ export OMP NUM THREADS=4 


2 § 


-/a.out 


尽管 通过 程序 控制 可 以 设置 和 改变 运行 的 线程 数量 ,但 是 编写 一 个 OpenMP 程序 不 应 
该 对 线程 的 具体 数量 进行 假定 。 
代码 清单 6-1 “Manual” 循 环 并 行 化 和 变量 私有 化 。 注 意 这 并 不 是 OpenMP 程序 特有 的 模型 


integer :: bstart, bend, blen, numth, tid, i 
integer :: N 
double precision, dimension(N) :: a,b,c 


! SOMP PARALLEL PRIVATE (bstart, bend, blen, numth, tid, i) 


numth = omp_get_num_threads () 
tid = omp_get_thread_num() 
blen = N/numth 
if(tid.lt.mod(N,numth)) then 

blen = blen + 1 

bstart = blen * tid + 1 
else 

bstart = blen * tid + mod(N,numth) + 1 
endif 
bend = bstart + blen - 1 
do i = bstart, bend 

a(i) = b(i) + c(i) 
enddo 


! SOMP END PARALLEL 


a 


6.1.2 数据 作用 域 


存在 并 行 区 域 之 前 的 任何 变量 都 将 在 并 行 区 域内 部 被 访问 ， 同 时 默认 被 所 有 线程 共享 。 
当 且 仅 当 每 个 线程 拥有 自己 的 私有 变量 才 使 得 共享 工作 有 意义 。OpenMP 通过 为 每 一 个 线程 
定义 单独 的 栈 来 实现 这 一 概念 。 有 3 种 方式 实现 私有 变量 : 

1) 处 于 并 行 绪 构 人 口 之 前 的 变量 可 被 私有 化 ， 即 可 以 通过 在 OMP PARALLEL 指令 添 
加 PRIVATE 语句 为 每 一 个 线程 构造 属于 它 自 己 的 变量 作为 私有 实例 。 这 个 私有 变量 的 作用 
域 持续 到 并 行 结 构 结 束 。 

2) 共享 循环 (参考 下 一 节 ) 的 指示 变量 自动 变 为 私有 变量 。 

3 ) 被 并 行 区 域 调用 的 子 过 程 局 部 变量 对 每 个 调用 线程 来 说 是 私有 变量 。 这 也 适用 于 使 
用 值 传递 语义 产生 的 实 参 拷贝 情况 和 C/C++ 结构 块 中 声明 的 变量 。 但 是 ,在 Fortran 中 具有 
SAVE 属性 (或 者 C/C++ 中 具有 static 属性 ) 的 局 部 变量 将 被 共享 。 

在 并 行 区 域 不 被 修改 的 共享 变量 不 用 私有 化 。 

代码 清单 6-1 展现 了 两 个 数组 相 加 的 简单 循环 的 并 行 化 。 实 际 的 循环 位 于 16 ~ 18 行 ， 
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在 此 之 前 的 代码 只 是 计算 每 个 线程 的 循环 边界 。 第 5 行 PARALLEL 指令 中 的 PRIVATE 语 
句 将 所 有 确定 的 变量 为 私有 化 ， 即 每 个 线程 从 它们 的 局 部 栈 获取 每 个 变量 没有 初始 值 的 实 
例 ( C++ 对象 被 默认 构造 函数 初始 化 )。 使 用 FIRSTPRIVATE 指令 替代 PRIVATE 将 会 使 用 
共享 实例 内 容 (在 C++ 中 ， 将 使 用 拷贝 构造 浮 数 ) 来 初始 化 私有 化 实例 。 在 并 行 区 域 之 后 ， 
如 果 私 有 化 变量 不 被 刻意 改变 ， 那 么 它们 的 最 初 值 将 会 保留 。 注 意 这 里 有 单独 语句 (分别 为 
THREADPRIVATE 和 COPYIN[P11]) 用 于 全 局 或 者 静态 数据 的 私有 化 ( SAVE 变量、 常用 
块 元 素 、 静 态 变 量 )。 

在 C/C++ F, hF parallel 指令 应 用 于 结构 块 ， 所 以 多 数 情 况 下 没有 必要 使 用 private 
语句。 相对 于 私有 化 共享 实例 ， 我 们 也 可 以 只 声明 局 部 变量 。 

| #pragma omp parallel 
i int bstart, bend, blen, numth, tid, i; 
4 re // calculate loop boundaries 
5 for(i=bstart; i<=bend; ++i) 
6 a[i] = bli] + efi]; 


} 
如 上 所 示 的 人 工 循环 并 行 化 当然 不 是 OpenMP 特有 的 操作 模型 。OpenMP 标准 定义 了 关 
于 线程 间 分 布 式 任务 更 为 高 级 的 方法 。 


6.1.3 循环 的 OpenMP 工作 共享 


循环 作为 科学 计算 代码 中 无 所 不 在 的 编程 结构 ， 如 果 它 的 每 次 迭代 独立 ， 那 么 通常 会 作 
为 并 行 化 的 候选 。 这 对 应 着 5.2.1 节 中 描述 的 中 等 粒度 的 数据 并 行 。 作 为 例子 ， 考 虑 一 个 积 
分 计算 m 的 简单 并 行程 序 : 


m dr (6-1) 


代码 清单 6-2 展示 了 一 个 可 能 的 实现 。 对 比 前 面 的 例子 ， 这 个 程序 也 是 一 个 合法 的 串 行 
代码 。 通 过 PARALLEL 指令 中 的 FIRSTPRIVATE 从 句 ，sum 初始 值 被 复制 到 私有 实例 。 然 
后 ， 在 do 循环 之 前 的 DO 指令 开启 一 个 worksharing 结构 : 循环 的 迭代 被 分 布 在 各 个 线程 上 
(这 是 因为 处 在 并 行 区 域 中 )。 每 个 线程 获取 它们 自己 的 迭代 空间 ， 即 i 的 值 被 赋值 为 不 同 的 
数 集 。 如 何 将 线程 映射 到 和 迭代 默认 是 依赖 于 实现 的 ， 但 是 程序 员 可 以 控制 (参考 下 面 的 6.1.6 
节 )。 尽 管 循环 计数 器 i 在 并 行 区 中 被 共享 ， 但 是 它 自 动 私有 化 。 循 环 后 的 最 后 的 END DO 
指令 在 这 里 并 不 是 严格 需要 的 ， 但 是 在 NOWAIT 语句 出 现 的 时 候 必 须 使 用 ; 详细 情况 请 参 
考 7.2.1 节 。 一 个 DO 指令 后 面 必 须 跟随 一 个 do 循环 ， 并 且 只 作用 于 这 个 循环 。 在 C/C++ 
中 ， 具 有 同样 功能 的 是 for 指令 。 循 环 计数 器 只 能 是 整数 (有 符号 或 者 无 符号 )、 指 针 ， 或 者 
BENLI IERA o 

代码 清单 6-2 OpenMP 中 函数 数值 积分 的 一 个 简单 程序 


double precision :: pi,w,sum,x 
integer :: i,N=1000000 


2 

3 

4 pi = 0.d0 

5 w = 1.d0/N 

6 sum = 0.d0 

7 !$OMP PARALLEL PRIVATE (x) FIRSTPRIVATE (sum) 
s !SOMP DO 


EA OpenMP if 47 # > 76-18 Ff 47 AHE 107 


9 do i=l,n 

10 x = wx (i-0.5d0) 

11 sum = sum + 4.d0/ (1 .dO0+xx*x) 
12 enddo 

3 !SOMP END DO 

14 !$OMP CRITICAL 

15 pi= pi + w*sum 

i6 !$OMP END CRITICAL 

i7 !$OMP END PARALLEL 


在 并 行 循 环 中 ， 每 一 个 线程 执行 整个 循环 迭代 空间 中 属于 它 自己 的 部 分 ， 将 结果 累加 到 


私有 变量 sum (11 行 )。 循 环 结束 之 后 ， 仍 旧 处 在 并 行 区 域 中 ， 而 部 分 和 必须 加 到 最 终 的 结 
Ke (15 行 )， 这 是 因为 sum 私有 实例 在 并 行 区 域 结 束 后 消失 。 这 里 存在 一 个 问题 : 在 没有 任 
何 计数 度量 的 情况 下 ,线程 将 并 发 的 将 结果 写 回 pio KIE, 计算 结果 将 依赖 于 线程 访问 pi 
的 顺序 ， 而 且 大 多 情况 顺序 是 错误 的 。 这 就 是 竞争 条 件 (race condition )， 我 们 将 在 下 一 个 小 
节 介 绍 如 何 阻止 它 出 现 。 

循环 的 工作 共享 ， 即 使 并 行 循环 被 并 行 区 域 的 子 程序 调用 ， 也 会 工作 。 因 为 DO 指令 超 
出 了 并 行 区 域 词法 范围 ， 所 以 这 时 DO 指令 被 孤立 。 如 果 一 个 指令 没有 遇 到 一 个 活动 并 行 区 
域 ， 则 循环 将 不 会 被 工作 共享 。 

最 后 ， 如 采 一 个 共享 工作 循环 的 并 行 区 域 分 离 不 是 必须 的 ， 那 么 可 以 将 两 条 指令 合并 。 

| !$OMP PARALLEL DO 

; do i=1,N 

3 ali) = b(i) + c(i) * afi) 


enddo 
!'SOMP END PARALLEL DO 


合并 循环 共享 工作 指令 的 语句 集合 其 实 是 所 有 单独 指令 语句 的 合集 。 
6.1.4 同步 


1. 临界 区 

并 发 地 访问 共享 变量 或 者 一 般 的 共享 资源 必须 尽量 避免 竞争 条 件 。 临 界 区 (critical 
region) 通过 保证 某 一 时 刻 最 多 只 有 一 个 线程 执行 一 段 代 码 来 解决 这 个 问题 。 如 果 一 个 线程 
在 执行 临界 区 域 代 码 ， 这 时 另 一 个 线程 想 要 进入 ， 则 第 二 个 线程 必须 等 待 (阻塞 ) 直到 先前 
的 线程 离开 临界 区 。 在 上 面积 分 的 例子 中 (代码 清单 6-2 )，CRITICAL 和 END CRITICAL 
指令 (14 行 和 16 行 ) 包括 其 pi 来 保证 结果 的 正确 性 。 需 要 注意 ， 进 入 临界 区 的 线程 顺序 是 
不 确定 的 ， 并 且 每 次 程序 运行 都 不 同 。 因 此 ,“ 正 确 结果 ”的 定义 必须 包含 按照 随机 顺序 累 
加 的 部 分 和 的 可 能 性 ， 当 然 关 于 浮 点 数 精度 的 通常 保留 建议 也 适用 [135]。( 如 果 强 顺序 的 等 
值 ， 即 和 串 行 代码 类 似 的 按 位 相等 是 必须 的 ， 那 么 OpenMP 提供 了 ORDERED 结构 体 的 一 
种 可 能 解决 方案 ， 这 里 我 们 不 再 著述 。) 

如 果 使 用 临界 区 不 当 将 会 造成 死 锁 的 危险 。 当 一 个 或 者 多 个 “代理 ”( 这 里 指 的 是 线 
Be) 等 待 着 永远 不 能 获取 的 资源 ， 那 么 死 锁 将 会 产生 ， 其 中 一 个 情形 是 由 不 合理 的 排列 
CRITICAL 指令 造成 的 。 当 一 个 线程 在 临界 区 碰 到 CRITICAL 指令 将 会 永远 阻塞 。 由 于 这 可 
能 出 现在 多 层 艇 套 的 子 过 程 中 ， 所 以 死 锁 一 般 很 难 确定 。 

OpenMP 提供 了 一 种 解决 这 种 问题 的 方案 : 我 们 可 以 为 一 个 临界 区 取 一 个 区 别 于 其 他 临 
界 区 的 名 字 。 名 字 通 过 在 CRITICAL 指令 后 的 括号 中 指定 。 
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1 !$OMP PARALLEL DO PRIVATE (x) 
2 do i=1,N 

3 x = SIN(2*PI*x/N) 

4 !SOMP CRITICAL (psum) 

5 sum = sum + func (x) 

6 !SOMP END CRITICAL (psum) 

7 enddo 

8 !$OMP END PARALLEL DO 


10 double precision func (v) 
11 double precision :: v 

12 !SOMP CRITICAL (prand) 

13 func = v + random_func () 
14 !SOMP END CRITICAL (prand) 
15 END SUBROUTINE func 


在 第 577TH sum 更 新 是 受 临 界 区 保护 的 。 因 为 不 允许 多 于 一 个 线程 同时 调用 random _ 
func() (13 行 )， 所 以 在 子 过 程 func() 中 存在 男 一 个 临界 区 ; 很 有 可 能 随机 种 子 是 SAVE 属 
性 变量 。 这 样 的 函数 是 非 线程 安全 的 ， 即 它 并 发 的 执行 可 能 造成 竞争 条 件 。 

如 果 不 同 的 临界 区 没有 名 字 ， 那 么 代码 将 会 死 锁 ， 这 是 因为 调用 func) 的 线程 已 经 处 在 
临界 区 ， 这 将 导致 立即 碰 到 第 二 个 临界 区 并 且 自 己 永远 等 待 自己 释放 资源 。 如 果 有 不 同 的 名 
字 ， 那 么 第 二 临界 区 将 被 用 来 保护 不 同 于 第 一 个 临界 区 保护 的 资源 。 

命名 临界 区 的 缺点 就 是 名 字 必 须 是 唯一 标识 符 。 例 如 ， 不 能 将 它们 用 整数 变量 来 索引 。 
在 OpenMP API 函数 中 提供 锁 (lock) 来 保护 共享 资源 的 方式 。 使 用 锁 变 量 的 好 处 是 它 可 以 
放 在 数组 或 者 结构 体 中 。 因 此 ， 这 种 方式 可 以 单独 保护 数组 中 的 每 一 个 元 素 而 不 需要 在 编译 
时 知道 它们 的 编号 。 请 参考 7.2.3 节 的 实例 。 

2. 同步 点 

当 并 行 执行 的 某 一 个 点 需要 同步 所 有 的 线程 时 ， 可 以 使 用 BARRIER 指令 。 

1 !SOMP BARRIER 

这 个 同步 点 是 一 个 保证 所 有 线程 在 其 他 线程 执行 它 下 面 的 代码 之 前 都 必须 到 达 的 点 。 当 
然 必须 保证 其 他 线程 都 必须 到 达 同 步 点 ,否则 会 发 生死 锁 。 

在 OpenMP 程序 中 同步 点 的 使 用 需要 谨慎 ， 部 分 是 因为 会 引起 死 锁 的 可 能 性 ， 还 有 就 
是 影响 性 能 (同步 需要 开销 )。 注 意 每 一 个 并 行 区 域 的 结尾 都 有 一 个 不 可 删除 的 隐形 同步 点 。 
在 工作 共享 循环 结束 和 一 些 阻 止 竞争 条 件 的 结构 体 中 都 会 有 默认 的 隐形 同步 点 。 它 们 可 以 用 
NOWAIT 语句 删除 。 详 情 请 参考 7.2.1 节 。 
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代码 清单 6-3 中 展现 的 循环 代码 是 用 来 为 数组 a() 加 上 一 些 随 机 噪声 ， 然 后 计算 它 的 向 
量 范 数 。RANDOM_ NUMBER() 子 过 程 根据 OpenMP 保 准 被 假定 是 线程 安全 的 。 

类 似 于 代码 清单 6-2 中 的 积分 代码 ， 循 环 实现 了 归 约 操作 : 许多 的 贡献 (a0 中 元 素 
的 更 新 ) 被 累加 到 一 个 变量 。 前 面 我 们 用 临界 区 解决 这 个 问题 ， 但 是 OpenMP 提供 了 使 用 
REDUCTION 语句 支持 归 约 的 更 简便 选择 〈 第 $ 行 末 )。 它 自动 地 私有 化 确定 的 变量 (这 里 
是 s)， 并 且 将 私有 的 变量 实例 初始 化 为 合理 的 值 。 在 这 个 结构 的 末尾 ， 所 有 的 部 分 结果 都 使 
用 特殊 操作 符 (这 里 是 +) 被 累计 到 一 个 共享 实例 s 中 从 而 获取 最 终结 果 。 

OpenMP 归 约 支持 一 些 操 作 符 集合 (Fortran 和 C/C++ 略 有 不 同 )， 这 些 集 合 不 可 扩展 。 
C++ 重 载 操作 符 也 是 不 允许 的 。 但 是 最 常见 的 情形 Ol, Ww. Fe. HS) 都 包含 其 中 。 如 
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果 一 个 操作 符 没有 定义 ， 那 么 必须 使 用 代码 清单 6-2 中 的 “手动 ”方法 。 
代码 清单 6-3 ”为 数组 元 素 添 加 噪声 并 计算 向 量 范 数 的 归 约 语句 例子 


double precision :: r,s 
double precision, dimension(N) :: a 


l 
2 
3 
4 call RANDOM_SEED () 

s !SOMP PARALLEL DO PRIVATE (r) REDUCTION (+:s) 
6 do i=1,N 

7 

8 


call RANDOM_NUMBER (r) ! thread safe 

a(i) = a(i) + func (r) ! func() is thread safe 
9 s = s + a(i) * a(i) 
10 enddo 


i! !SOMP END PARALLEL DO 

13 print *,’Sum = ,Ss 

注意 归 约 变量 的 自动 初始 化 尽管 方便 易 用 ， 但 是 可 能 产生 不 合法 的 序列 ， 也 就 是 非 
OpenMP 代码 。 不 使 用 OpenMP 编译 上 面 的 例子 ，s 将 不 会 被 初始 化 。 
6.1.6 ”循环 调度 


正如 上 面 所 述 ， 循 环 和 迭代 到 线程 的 映射 是 可 配置 的 。 它 被 共享 工作 循环 指令 中 的 
SCHEDULE 语句 参数 所 控制 。 


1 !SOMP DO SCHEDULE (STATIC) 


2 do i=1,N 

3 a(i) = calculate (i) 
4 enddo 

s !SOMP END DO 


最 简单 的 可 能 是 STATIC， 它 将 循环 分 成 连续 、 等 大 小 (近似 的 ) 的 组 块 。 每 一 个 线程 
仅 执 行 其 中 的 一 块 。 如 果 一 些 循环 迭代 的 工作 量 不 是 固定 的 ， 也 就 是 随 着 循环 变量 递减 ， 那 
么 这 种 方法 是 次 优 的 ， 这 是 因为 不 同 的 线程 将 会 获得 差别 很 大 的 负载 ， 这 将 会 导致 负载 不 均 
衡 。 一 个 解决 方案 就 是 在 “STATIC,1” 中 使 用 chunksize 指定 每 个 组 块 的 大 小 为 1， 并 使 得 
每 个 线程 循环 获取 。 块 大 小 可 以 不 是 常数 而 是 任何 合法 整数 值 的 表达 式 。 

除了 静态 调度 ， 还 存在 其 他 类 型 的 负载 (参见 图 6-2 )。 动 态 调 度 是 为 下 一 个 已 经 完成 自 
己 块 组 的 线程 分 配 一 个 通过 chunksize 定义 的 块 组 工作 。 这 样 会 产生 每 一 次 运行 都 不 一 样 的 
弹性 分 配 。 被 分 配 “ 更 简单 ” 块 组 的 线程 将 会 在 结束 时 完成 更 多 ， 这 样 负载 不 均 很 大 程度 会 
被 削弱 。 

如 果 相 对 于 执行 时 间 来 说 块 组 太 小 ， 那 么 动态 调度 将 会 产生 巨大 开销 (参考 7.2.1 节 的 
循环 开销 估计 )。 这 也 是 为 什么 对 于 那些 导致 负载 不 均 的 循环 选取 较 大 的 块 组 。 当 遇 到 问题 
的 时 候 ， 使 用 诱导 式 调度 会 有 帮助 。 同 样 ， 线 程 动态 地 获取 块 组 ,但 是 块 组 的 大 小 总 是 正比 
于 剩余 迭代 次 数 除 以 线程 数 的 值 。 最 小 的 块 组 大 小 是 由 调度 语句 确定 的 (默认 是 1)。 除 了 
动态 分 配 块 组 ， 调 度 开销 也 是 受 控 的 。 但 是 ， 考 虑 动态 调度 和 诱导 式 调度 需要 注意 : 由 于 
分 配给 线程 块 组 是 动态 不 确定 的 ， 所 以 受 带 宽 限 制 的 应 用 程序 在 ccNUMA 系统 中 将 会 受 限 
于 访 存 局 部 性 (参考 4.2.3 节 的 ccNUMA 体系 结构 和 第 8 章 的 cceNUMA 性 能 影响 和 优化 方 
法 )。 如 果 使 用 标准 的 工作 共享 指令 ， 那么 在 这 种 情形 下 只 能 使 用 静态 调度 。 当 然 ， 还 存在 
“ 显 式 ”调度 可 能 性 ，6.1.2 节 中 使 用 线程 ID 来 给 线程 分 配 工作 。 

关于 调试 和 程序 概要 分 析 ，OpenMP 提供 了 运行 时 决定 循环 调度 的 方法 。 如 果 在 调度 语 
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句 中 指明 “ RUNTIME”， 那 么 循环 将 会 根据 OMP SCHEDULEshell 变量 内 容 进 行 调 度 。 但 
是 ，SCHEDULE(RUNTIME) 没有 办 法 为 不 同 的 循环 设置 不 同 的 调度 方式 。 
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动态 [,1] 动态 ,3 指导 性 的 [，1] 

图 6-2 OpenMP 中 的 循环 调度 。 这 个 例子 中 循环 有 20 次 迭代 ， 由 三 个 线程 (TO. T1, T2) 执 
行 。DYNAMIC 和 GUIDED 默认 块 组 是 1。 如 果 一 个 块 组 大 小 确定 ， 那 么 最 后 一 个 块 
组 可 能 要 短 一 些 。 注 意 ，STATIC 调度 保证 块 组 的 分 配 在 每 次 运行 的 时 候 都 相同 


6.1.7 任务 


在 早期 的 标准 中 ，OpenMP 中 的 并 行 工作 共享 主要 针对 于 循环 结构 。 但 是 ， 并 不 是 所 有 
并 行 工 作 都 是 循环 形式 ; 一 个 典型 的 例子 就 是 应 该 并 行 处 理 存放 着 对 象 的 线性 链表 (很 可 能 
存放 在 STL 容器 std::list<> 中 )。 既 然 通过 整数 索引 或 者 随机 访问 迭代 器 不 是 很 容易 定位 链 
表 元 素 ， 那 么 循环 工作 共享 结构 就 不 适用 了 ， 否 则 将 需要 大 量 的 编程 努力 才能 使 用 。 

OpenMP 3.0 提供 了 任务 的 概念 来 规避 这 种 限制 。 由 TASK 指令 定义 任务 ， 并 且 包 含 要 
被 执行 的 代码 。” 当 线程 碰 到 一 个 任务 结构 体 ， 线 程 可 能 立即 执行 该 结构 体 或 者 设置 合适 的 
数据 环境 并 延迟 执行 。 当 任务 准备 好 了 ， 它 将 被 小 组 的 其 他 线程 执行 。 

作为 一 个 简单 例子 ， 考 虑 这 样 一 个 循环 ， 其 中 的 函数 调用 是 根据 每 次 循环 索引 计算 的 概 
率 决 定 : 


| integer i,N=1000000 

2 type (object), dimension(N) :: p 
3 double precision :: r 
4 
5 


1SOMP PARALLEL PRIVATE (r,i) 


6 !$OMP SINGLE 
7 do i=1,N 


© OpenMP 术语 中 ,“ 任 务 ” 实 际 上 是 一 个 通用 术语 ; 这 里 的 定义 足以 满足 我 们 需要 。 
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8 call RANDOM_NUMBER (r) 

9 if (p(i)%weight > r) then 
i0 !$OMP TASK 

11 ! i is automatically firstprivate 
12 ! p() is shared 

13 call do_work_with(p(i) ) 
14 !$OMP END TASK 

Is endif 

16 enddo 

17 !$OMP END SINGLE 

ig !S$OMP END PARALLEL 


执行 do_work with) 的 实际 次 数 是 不 确定 的 ， 所 以 任务 化 是 一 个 自然 的 选择 。 人 遍历 所 
有 pO R K do 循环 是 在 一 个 SINGLE 区 域 执行 的 (6 ~ 17 行 )。 一 个 SINGLE 区 域 将 只 
能 被 一 个 线程 进入 ， 也 即 允 许 最 先 到 达 SINGLE 指令 的 线程 进入 。 所 有 其 他 线程 将 会 跳 过 这 
段 代 码 直 到 END SINGLE 指令 ， 并 在 那里 的 一 个 隐 式 同步 点 等 待 。 线 程 将 会 根据 当前 具体 
对 象 内 容 以 一 定 概率 进入 一 个 任务 结构 。 一 个 任务 存 包 括 do work with() (第 13 行 ) 调用 以 
及 合适 的 数据 环境 ， 该 环境 是 由 pO 类 型 的 数组 和 索引 i 组成。 当然 ， 每 个 任务 的 索引 是 唯 
一 的 ， 所 以 它 实 际 上 是 由 FIRSTPRIVATE 语句 决定 。OpenMP 明确 指出 处 在 封闭 上 下 文中 
的 私有 变量 在 任务 中 将 被 自动 变 为 FIRSTPRIVATE ， 然 而 共享 的 数据 依旧 共享 (除了 添加 额 
外 的 数据 作用 域 )。 由 于 这 正 是 我 们 需要 的 情况 ， 所 有 不 需要 额外 增加 语句 。 

在 SINGLE 区 域 中 的 线程 生成 的 所 有 任务 都 将 受 整个 线程 组 的 动态 执行 控制 。 实 际 上 ， 
生成 线程 也 可 能 被 强制 挂 起 TASK 结构 体 的 循环 执行 (任务 调度 点 的 一 个 实例 ) 以 便 运行 排 
队 的 任务 。 当 排队 的 任务 到 达 内 部 限制 (依赖 实现 ) 时 ， 这 种 情形 将 发 生 。 在 一 些 任务 已 经 
运行 后 ， 生 成 线程 将 会 返回 循环 。 注 意 ， 任 务 调 度 的 复杂 性 这 个 简单 例子 不 能 解释 透彻 ; 多 
线程 能 够 并 发 地 生成 任务 ， 并 且 任 务 可 以 被 声明 为 untied， 以 便 不 同 线程 在 任务 调度 点 开始 
执行 。OpenMP 标准 提供 了 大 量 的 实例 。 

当 动 态 或 者 诱导 式 循 环 调度 时 ， 任 务 并 行 的 不 确定 执行 将 导致 和 ccNUMA 局 部 访问 的 
同样 问题 。 改 善 这 种 问题 的 编程 技巧 确实 存在 [058]， 但 是 它们 的 应 用 有 限 。 


6.1.8 其 他 方面 


1. 条 件 编 译 

在 一 些 情形 中 ， 编 写 依赖 OpenMP 打开 或 关闭 的 代码 将 很 有 用 。 指 令 本 身 不 存在 什么 
问题 ， 这 是 由 于 它们 将 被 自动 忽略 。 对 于 默认 情况 ， 有 些 人 想 屏蔽 掉 ， 例 如 ， 如 果 没 有 开启 
OpenMP, ABA API 曙 数 的 调用 或 者 其 他 相关 代码 都 没有 意义 。C/C++ 将 通过 预 处 理 符号 _ 
OPENMP 支持 ， 但 也 仅仅 是 在 OpenMP 存在 的 情况 。 在 Fortran 中 如 果 OpenMP 关闭 ， 那 
么 标记 “1!$ ”将 作为 注释 。 

2. 存储 一 致 性 

在 代码 清单 6-4 展示 的 代码 中 ， 第 二 个 API 调 用 (第 8 行 ) 处 在 SINGLE 区 域 。 这 是 
因为 numthreads 是 全 局 的 并 且 应 该 只 被 一 个 线程 写 入 。 在 临界 区 ， 每 一 个 线程 将 会 打印 一 
条 消息 ， 但 是 必须 保证 numthreads 变量 的 改变 值 被 “提交 ”到 内 存 之 前 没有 一 个 线程 离开 
SINGLE 区 域 。END SINGLE 指令 这 里 作为 隐 式 的 同步 点 ， 即 其 他 线程 达到 该 点 前 ， 没 有 线 
程 能 够 继续 执行 。OpenMP 内 存 模型 确保 同步 点 强制 内 存 一 致 性 : 保留 在 寄存 器 中 的 变量 写 
入 内 存 以 便 cache 一 致 性 能 够 保证 所 有 cache 将 获得 最 新 更 新 值 。 这 可 以 通过 在 程序 控制 中 
使 用 FLUSH 指令 控制 ,但 是 大 多 数 OpenMP 工作 共享 和 同步 结构 体 执行 隐 式 同步 ， 依 旧 是 
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在 结尾 刷新 。 
代码 清单 6-4 OpenMP 中 Fortran 标记 和 条 件 编译 混合 
| !$ use omp_lib 
2 myid=0 
3 numthreads=1 
4 #ifdef _OPENMP 
5 !SOMP PARALLEL PRIVATE (myid) 
6 myid = omp_get_thread_num() 
7 !$OMP SINGLE 
8 numthreads = omp_get_num_threads ( ) 
9 !$OMP END SINGLE 
10 !SOMP CRITICAL 


i write(*,*) ‘Parallel program - this is thread ’,myid,& 
′ of ',numthreads 


13 !SOMP END CRITICAL 
14 !SOMP END PARALLEL 


is #else 
16 write(*,*) ‘Serial program’ 
7 #endif 


注意 编译 器 优化 可 能 阻止 其 他 线程 立即 看 见 修改 的 变量 。 如 果 有 疑惑 ， 使 用 FLUSH 48 
令 或 者 声明 变量 为 volatile (只 在 C/C++ 和 Fortran 2003 中 可 行 )。 

3. 线程 安全 

因为 第 11 行 的 write 语句 是 串 行 的 ( 即 被 临界 区 保护 )， 所 以 当 多 线程 写 到 控制 台 时 ， 
它 的 输出 将 不 会 打 乱 。 作 为 一 般 性 原则 ， 不 仅 LO 操作 及 很 一 般 的 操作 系统 功能 ， 还 有 通用 
的 库 子 数 都 应 该 是 串 行 的 ， 否 则 线程 不 安全 。 一 个 突出 实例 就 是 C 语言 库 函 数 rand), €M 
静态 变量 来 存储 隐藏 状态 (种 子 )。 


4. 亲缘 性 
需要 注意 的 是 OpenMP 标准 没有 给 出 线程 如 何在 系统 中 绑 定 内 核 ， 也 没有 给 出 局 部 性 


约束 的 实现 。 所 以 对 于 线程 的 安排 我 们 不 能 依靠 操作 系统 来 做 出 正确 的 决策 ， 这 也 是 为 什 
么 (尤其 在 多 核 架 构 和 ccNUMA 系统 中 ) 要 使 用 系统 级 的 工具 、 支 持 编译 器 或 者 库 函 数 显 
式 将 线程 绑 定 到 内 核 。 更 多 技术 细节 见 附 录 A. 

5. 环境 变量 

OpenMP 程序 某 些 方面 的 执行 可 能 受到 环境 变量 的 影响 。 正 如 上 面 描 述 的 OMP NUM _ 
THREADS 和 OMP SCHEDULE。 

对 于 线程 的 局 部 变量 ， 读 者 必须 时 时 牢记 一 般 情 况 下 操作 系统 shell 限制 进程 总 的 栈 变 
量 的 大 小 ， 并 且 系 统 也 对 每 个 线程 的 栈 大 小 有 限制 。 这 种 限制 可 以 通过 OMP STACKSIZE 
环境 变量 进行 调整 。 例 如 ， 设 置 它 为 “100M” 将 会 将 每 个 线程 的 栈 大 小 置 为 100MB (除去 
由 shell 设置 的 初始 程序 线程 栈 )。 栈 溢出 是 OpenMP 程序 常见 的 问题 。 

OpenMP 标准 允许 不 同 的 并 行 区 域 之 间 可 以 动态 改变 活跃 线程 数量 以 便 适应 可 获取 系统 
资源 (动态 线程 数量 调整 )。 这 个 特性 可 以 设置 OMP_DYNAMIC 环境 变量 真 或 者 假 来 打开 
或 者 关闭 。 它 没有 明确 OpenMP 运行 时 实现 的 默认 行为 。 


6.2 ”案例 分 析 : OpenMP 并 行 实现 Jacobi 算法 


在 3.3 节 Jacobi 算 法 并 行 化 采取 的 是 直接 的 方式 。 但 是 我 们 将 加 上 一 个 细微 的 改动 : 
一 个 收敛 标准 将 确保 代码 产生 一 个 收敛 的 结果 。 为 了 做 到 这 样 ， 我 们 引进 一 个 新 的 变量 
maxdelta 来 存放 所 有 网 格 中 前 后 迭代 的 最 大 绝对 差 值 (参考 代码 清单 6-5 )。 如 果 maxdelta 


A OpenMP i 47 -F 76-18 FAT 9 FZ 113 


降 到 域 值 eps 以 下 ， 那 么 达到 收敛 。 
幸运 的 是 ，OpenMP Fortran 接口 允许 在 REDUCTION 语句 中 使 用 MAX() 原 语 函数 来 简 
化 收敛 检查 (代码 清单 6-5 的 第 7 和 15 行 )。 图 6-3 显示 了 在 Intel XA Xeon 5160 3.0 GHz 
节点 上 一 个 、 两 个 和 四 个 线程 的 性 能 。 在 这 个 节点 上 ， 一 个 槽 中 的 双核 共享 4MB L2cache 
和 一 个 前 端 总 线 (FSB)。 结 果 证 实 了 多 核 环境 下 的 并 行 计算 的 几 个 关键 方面 : 
a 随 着 N 的 增加 ， 当 工作 集 大 小 (2 xN?x8 字 节 ) 超出 cache 时 ， 性 能 将 会 下 降 。 对 于 
同样 的 N， 性 能 下 降 也 会 发 生 在 单线 程 和 运行 在 同一 个 L2 组 (被 填充 符号 ) 中 的 双 线 
程 。 如 果 线 程 处 在 不 同 的 槽 (开放 符号 )， 这 个 限制 将 是 Y2 倍 大 ， 这 是 因为 合并 的 cache 
大 小 是 双 倍 (图 6-3 中 的 虚线 )。 第 二 个 下 降 点 在 非常 大 的 情况 下 ， 即 当 两 个 连续 的 
网 格 行 超出 L2cache 大 小 ， 就 不 能 看 作 我 们 使 用 了 方形 网 格 (参考 3.3 节 )。 
代码 清单 6-5 ”增加 了 收敛 标准 的 Nx N 网 格 大 小 的 二 维 Jacobi 算法 OpenMP 实现 


double precision, dimension (0O:N+1,0:N+1,0:1) :: phi 
double precision :: maxdelta,eps 

integer :: t0,tl 

eps = 1.d-14 ! convergence threshold 


maxdelta = 2.d0*eps 
do while (maxdelta .gt .eps) 
maxdelta = 0.d0 
9 !$OMP PARALLEL DO REDUCTION (max:maxdelta) 


10 do k = 1,N 

1] do i= 1,N 

12 ! four flops, one store, four loads 

13 phi(i,k,tl) = ( phi(itl1,k,t0O) + phi(i-1,k,t0) 

14 + phi (i,k+1,t0) + phi(i,k-1,t0) ) * 0.25 
15 maxdelta = max (maxdelta, abs (phi (i,k,t1)-—-phi (i,k,t0O) ) ) 
16 enddo 

17 enddo 

is !$OMP END PARALLEL DO 

19 ! swap arrays 

20 1 = tO ; tO=tl ; tl=i 

21 enddo 


性 能 [MLUP/s] 
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图 6-3 在 3.0 GHz Intel 双核 双 槽 Xeon 5160 节点 (右边) 上 单个 、 两 个 和 四 个 线程 的 NxN 网 
格 大 小 二 维 Jacobi 算法 OpenMP 实现 的 不 同 问题 规模 与 性 能 对 比 。 对 于 两 个 线程 ， 可 
以 选择 放 在 一 个 槽 (实心 方形 ) 或 者 两 个 槽 (空心 方形 ) 
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156 口 对 于 带宽 受 限 情况 ， 单 个 线程 可 以 充分 利用 一 个 槽 的 FSB， 即 比较 大 的 N。 同 时 在 
157 一 个 槽 中 运行 两 个 线程 没有 性 能 上 优势 ， 这 是 因为 它们 竞争 使 用 前 端 总 线 。 增 加 第 


二 个 槽 性 能 将 会 提升 80%， 很 显然 是 因为 两 个 FSB 的 缘故 。 因 为 芯片 和 FSB 架构 的 
缘故 ， 扩 展 性 并 不 是 很 好 。 注 意 在 所 有 存储 层次 上 的 带宽 扩展 行为 对 于 体系 结构 有 
很 强 的 依赖 性 ; 这 里 存在 使 用 两 个 或 者 多 个 线程 用 满 内 存 接口 的 多 核 必 片 。 

O 当 线程 数目 是 两 个 时 ， 最 大 的 cache 性 能 是 一 样 的 ， 不 管 这 两 个 线程 运行 在 相同 或 者 
不 同 的 槽 中 (填充 和 开放 方形 对 比 )。 这 表明 共享 L2cache 能 够 使 组 内 双核 的 珊 宽 需 
求人 饱和。 然而 , 3/4 的 Jacobi 内 核 加 载 由 Llcache 满足 (参考 3.3 节 的 带宽 需求 分 析 ) 。 
这 种 情形 下 的 性 能 分 析 很 微妙 [M41, M44]。 

a 当 N < 50 时 ,线程 位 置 对 性 能 的 影响 要 比 数量 重要 ， 尽 管 这 个 问题 适合 于 集成 的 
Llcache。 这 种 情形 下 用 双 槛 速度 下 降 一 半 。 原 因 就 是 当 六 小 时 ，OpenMP 在 工作 共享 
循环 的 同步 开销 占 主导 地 位 。 这 个 问题 更 详细 的 信息 和 如 何 减轻 后 果 参 考 7.2 节 。 

对 于 带宽 受 限 算法 的 性 能 特点 的 解释 需要 对 底层 的 硬件 并 行 ， 包 括 多 核 芯片 的 问题 都 应 

该 有 一 个 好 的 理解 。 未 来 多 核 设 计 更 加 具有 “差异 性 ” (参考 图 1-17 )， 并 且 展 现 多 层 cache 
组 结构 ， 使 得 对 平行 代码 的 性 能 特征 理解 造成 困难 。 


6.3 高 级 OpenMP: 波 前 并 行 化 


直到 目前 ， 我 们 遇 到 的 OpenMP 并 行 问 题 或 多 或 少 都 很 直接 ， 这 是 因为 重要 循环 都 是 

由 独立 的 迭代 组 成 。 但 是 ， 在 出 现 某 些 情况 下 阻止 流水 线 的 循环 依赖 中 (参考 1.2.3 节 )， 在 

循环 之 前 编写 一 个 简单 工作 共享 指令 将 会 导致 不 可 预测 的 结果 。 一 个 典型 的 示例 就 是 用 来 

解决 线性 方程 组 或 者 边界 值 问题 ， 同 时 作为 多 网 格 方法 中 平滑 部 分 的 Gauss-Seidel 算法 。 代 

码 清单 6-6 描述 了 三 维 空间 中 一 个 可 能 的 串 行 实现 。 类 似 于 3.3 市 中 介绍 的 Jacobi 算法 ， 代 

码 解 决 稳定 状态 ,但 是 没有 提供 多 余数 组 给 当前 和 下 一 步 使 用 ; (i, j,k) 的 更 改 直 接 重用 小 坐 

158) 标 中 的 三 个 相 邻 节点 。 因 为 那些 已 经 在 扫描 之 前 更 改 ， 所 以 Gauss-Seidel 算法 拥有 不 同 于 
Jacobi 的 收敛 属性 (Stein-Rosenberg 理论 )。 


代码 清单 6-6 =# Gauss-Seidel 算法 的 直接 实现 。 高 亮 引 用 引起 循环 依赖 


1 double precision, parameter :: osth=1/6.d0 
2 do it=l,itmax ! number of iterations (Sweeps) 
3 Inot parallelizable right away 


4 do k=1, kmax 

5 do j=1,jmax 

6 do i=1,imax 

7 phi (i,j,k) = ( phi(i-1,j,k) + phi(it+1,j,k) 

8 + phi(i,j-1,k) + phi(i,j+1,k) 

9 + phi(i,j,k-1) + phi(i,j,k+1) ) * osth 
10 enddo 

Li enddo 

12 enddo 

13 enddo 


Jacobi 算法 的 并 行 化 很 直接 (参考 前 一 节 )， 这 是 因为 一 次 扫描 的 更 新 存放 在 不 同 的 数 
组 ， 但 是 这 里 的 情形 不 同 。 确 实 ， 在 k 循环 之 前 加 上 PARALLEL DO 指令 会 造成 竞争 条 件 
并 且 每 次 运行 产生 的 (错误 ) 结果 不 同 。 
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但 是 还 是 可 以 使 用 OpenMP 并 行 化 程序 。 关 键 想 法 就 是 找到 一 种 能 够 穿越 网 格 同时 满 
足 模 板 更 新 带 来 的 依赖 限制 。 图 6-4 和 图 6-5 描述 了 如 何 实 现 这 个 方法 : 不 再 简单 地 将 大 维 
分 割 成 块 组 给 OpenMP 线程 处 理 ， 而 是 将 一 个 wavefront 传递 给 下 个 方 回 的 网 格 。 并 行 化 
的 维度 是 7 ， 而 上 个 线程 To…Tii 中 的 每 一 个 获取 一 个 连续 jaxw/t 大 小 的 块 组 。 这 将 网 格 分 成 
imax Xjmax/t x 1 大 小 的 块 。k 坐标 最 小 的 第 一 个 块 仅 能 被 单个 线程 (To) 更 新 ， 形 成 自己 的 一 
个 “wavefront”( 波 前 ， 图 6-4 中 的 Wi )， 其 他 所 有 线程 不 得 不 等 待 直到 这 个 块 完 成 。 在 那 
之 后 ， 第 二 个 wavefront (W2) 可 以 开始 ， 这 时 两 个 线程 (To 和 Ti ) 并 行 地 处 理 两 个 块 。 在 
男 一 个 同步 之 后 ，W; 开局 三 个 线程 ， 以 此 类 推 。W', 是 首 个 用 到 所 有 线程 的 wavefront, A 
所 谓 的 wind-up 步骤 结束 。 在 完全 扫描 之 前 需要 一 些 时 间 (tA wavefront), wind-down 阶段 
开始 并 且 工 作 线 程 数量 在 后 续 每 个 wavefront 都 会 减少 。k 和 j 坐标 的 最 大 值 最 后 会 被 单线 程 
(T.1) 的 第 W 个 wavefront 更 新 。 在 结束 时 ， 值 为 n = kmaxtt—1 的 wavefront 已 经 以 “流水 
线 ” 的 模式 穿 过 网 格 。 当 然 ，2(t-1) 只 用 少 于 t 个 线程 。 当 ksx > 1 时， 整个 设计 才能 到 达 
负载 均衡 。 





图 6-4 Gauss-Seidel 流水 线 处 理 (PPP)， 亦 称 三 维 Gauss-Seidel 算法 wavefront 并 行 化 (wind- 
up 步骤 )。 为 了 满足 每 次 模板 更 新 的 依赖 限制 ， 连 续 的 wavefront (W, W2, ..., Wn) 
必须 顺序 执行 ， 但 是 多 线程 每 个 wavefront 中 的 多 线程 可 以 并 行 执行 。 到 最 后 的 wind- 
up FRAG t 个 线程 的 子 集 参 加 


代码 清单 6-7 显示 了 这 个 算法 的 一 个 可 能 实现 。 为 了 简化 ， 我 们 假设 js 是 线程 数量 整 
数 倍 。 变 量 1 计算 wavefront +X, k 是 每 一 个 线程 的 当前 大 坐标 。 在 第 19 FF OpenMP 的 同 
步 点 使 得 所 有 线程 (包括 可 能 的 空闲 线程 ) 在 一 个 wavefront 结束 之 前 同步 。 
代码 清单 6-7 三 维 Gauss-Seidel 算法 wavefront 并 行 化 。 循 环 依赖 依旧 存在 ， 但 是 线程 能 够 并 行 工作 


| !$OMP PARALLEL PRIVATE (k, j,i, jStart, jEnd,threadID) 

2 threadID=OMP_GET_THREAD_NUM () 

3 !SOMP SINGLE 

4 numThreads=OMP_GET_NUM_THREADS () 

5 !SOMP END SINGLE 

6 jStart=jmax/numThreads*threadID 

7 jEnd=jStart+jmax/numThreads ! jmax is amultiple of numThreads 


160 
} 


8 do 1=1,kmax+numThreads-1l 

9 k=1-threadID 

10 if ((k.ge.1).and.(k.le.kmax)) then 

11 do j=jStart, jEnd ! this is the actual parallel loop 
12 do i=l, iMax 

13 phi(i,j,k) = ( phi(i-1,3,k) + phi (itl, j,k) 

14 + phi (i, j-1,k) + phi (i, j+1,k) 

15 + phi(i,j,k-1) + phi(i,j,k+1) ) * osth 





~ 
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J `a 
图 6-5 = Gauss-Seidel 算法 wavefront 并 行 化 ( 满 流水 步骤 )。 所 有 上 个 线程 都 参加 。 第 W; 
个 wavefront 如 实例 所 示 


我 们 已 经 忽略 诸如 外 层 循环 展开 (参考 图 6-4 的 T. 块 位 置 改变 顺序 ) 的 标量 优化 。 注 意 
模板 更 新 与 先前 的 版 本 相 比 没有 改变 ， 所 以 这 里 仍然 存在 循环 依赖 。 这 些 将 阻止 内 存 循环 满 
流水 的 执行 ， 但 是 如 果 性 能 受 访 存 带宽 限制 ， 那 么 这 样 影响 很 小 。 实 现 流 水 线 (也 就 是 向 量 
化 ) 的 可 选 方案 参考 习题 6.6。 

wavefront 方法 是 高 性 能 计算 中 最 重要 的 方法 之 一 ， 尤 其 适用 大 规模 并 行 应 用 [L76, 
L78] 和 共享 内 存 代 码 优化 [052, 059], wavefront 是 流水 线 从 中 等 粒度 到 粗 粒 度 并 行 的 一 种 
日 然 扩 展 。 遗 憾 的 是 目前 主流 的 语言 还 没有 对 此 的 直接 支持 。 进 一 步 ， 尽 管 依赖 分 析 是 任何 
编译 硕 的 主要 优化 阶段 ， 但 很 少 有 编译 器 能 够 做 到 自动 wavefront 并 行 化 。 

注意 模板 算法 (Gauss-Seidel 和 Jacobi 算法 仅仅 是 两 个 简单 例子 ) 是 许多 仿真 和 了 PDE 
解决 方法 的 核心 部 分 。 过 去 几 十 年 发 明了 许多 优化 、 并 行 化 以 及 向 量化 技术 ， 并 且 存 在 大 量 
的 文献 。 更 多 的 信息 可 以 从 参考 文献 [060, 061, 062, 063] 获取 。 


习题 
6.1 OpenMP 代码 纠 错 。 下 面 的 用 Fortran 90 编写 的 OpenMP 并 行 代码 哪里 有 错 ? 
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| double precision, dimension(0:360) :: a 
2 

3 !SOMP PARALLEL DO 

4 do i=0, 360 

5 call f(dble(i)/360*PI, a(i)) 

6 enddo 

7 !S$OMP END PARALLEL DO 

8 

9 


11 subroutine flarg, ret) 


12 double precision :: arg, ret, noise=1.d-6 
13 ret = SIN(arg) + noise 

14 noise = -noise 

15 return 

16 end subroutine 


使 用 Monte Carlo 方法 计算 下。 圆心 是 (0,0)， 半 径 是 1， 处 在 第 一 象限 的 1/4 圆 的 面积 是 下 /4。 
给 一 个 在 [0,1] x [0,1] 之 间 的 随机 数 对 ， 它 出 现在 这 个 1/4 圆 的 概率 是 F/4， 所 以 拥有 足够 的 统 
计数 据 ， 我 们 能 够 使 用 所 谓 的 Monte Carlo 方法 计算 n (BSA 6-6 )。 编 写 一 个 执行 这 个 任务 的 
HÍT OpenMP 程序 。 为 所 有 线程 使 用 合适 的 子 过 程 获取 独立 随机 数 序列 。 在 弱 扩 展 情形 下 ， 确保、 [162 


增加 更 多 的 线程 来 提高 统计 数据 。 





图 6-6 ”使 用 Monte Carlo 方法 计算 m (参考 习题 6.2 ) 。 随 机 点 出 现在 这 个 1/4 圆 的 概率 是 站 /4 


解 开 临界 区 。 在 6.1.4 节 ， 我 们 证 明了 使 用 命名 临界 区 能 够 阻止 死 锁 。 如 何 简单 修改 实例 代码 避 


免 使 用 名 字 ? 
同步 风险 。 下 面 的 代码 有 什么 错误 ? 


1 !SOMP PARALLEL DO SCHEDULE (STATIC) REDUCTION (+: sum) 

2 do i=1,N 

3 call do_some_big_stuff(i,x) 

4 sum = sum + x 

5 call write_result_to_file (omp_get_thread_num(),x) 
6 !SOMP BARRIER 

7 enddo 

8 !SOMP END PARALLEL DO 


非 平 行 化 ? (这 个 问题 出 现在 2007 年 的 OpenMP 官方 邮件 列表 中 。) 使 用 OpenMP 并 行 执行 下 面 
代码 中 的 循环 。 


ı double precision, parameter :: up = 1.00001d0 
2 double precision :: Sn 


118 BOF 


double precision, dimension(O:len) :: opt 


3 
4 

s Sn = 1.d0 

6 do n = 0,len 
7 opt (n) = Sn 
8 Sn = Sn * up 
9 enddo 


简单 地 在 循环 之 前 写 上 OpenMP 工作 共享 指令 不 会 有 效果 ， 这 是 因为 代码 中 的 循环 是 有 依赖 的 : 

每 次 迭代 依赖 于 前 一 次 迭代 的 结果 。 并 行 化 的 代码 应 该 独立 工作 于 所 使 用 的 OpenMP 调度 。 尽 量 

避免 使 用 影响 串 行 性 能 的 高 代价 操作 。 

解决 这 个 问题 ， 你 可 以 考虑 使 用 OpenMP 的 FIRSTPRIVATE 和 LASTPRIVATE 语句 。LASTPRIVATE 

只 能 在 工作 共享 循环 结构 体 中 使 用 ， 对 列表 中 的 变量 值 的 影响 是 当 并 行 循环 退出 时 将 它们 最 后 一 次 

循环 迭代 的 值 复制 到 全 局 变量 中 。 

6.6 Gauss-Seidel 流水 线 。 发 明 一 种 Gauss-Seidel 扫描 的 重 构 方式 (代码 清单 6-6) 以 便 内 层 循环 

不 含有 循环 依赖 。 提 示 : 从 网 格 中 任意 选择 一 些 位 置 ， 可 视 化 那些 能 够 同时 更 新 并 遵循 循环 依 
赖 的 其 他 位 置 。 请 问 对 基于 cache 的 处 理 器 和 向 量 处 理 器 ， 这 种 构造 有 什么 性 能 影响 (参考 1.6 
164 T)? 
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OpenMP 似乎 是 最 简单 的 编写 并 行程 序 的 方式 ， 这 是 因为 它 具 有 基于 指令 的 简单 接口 
和 逐一 处 理 程 序 中 的 循环 而 不 必 大 量 重 构 代 码 的 增 量 式 并 行 化 。 然 而 事实 说 明 ， 除 了 一 些 
显而易见 的 案例 外 ， 要 想 编写 真正 可 扩展 的 OpenMP 程序 可 是 一 件 重 大 的 任务 。 本 章 详 
述 OpenMP 共享 内 存 编程 中 出 现 的 性 能 问题 以 及 应 对 措施 。 我 们 将 采取 第 3 ET EY i 
MVM 的 OpenMP 并 行 化 代码 为 例 。 

学 术 界 存在 着 大 量 关 于 OpenMP 程序 可 行 优化 的 文献 [P12，064]。 虽 然 本 章 仅 介绍 最 
相关 的 基本 内 容 ， 但 是 对 于 起 步 来 说 已 经 足够 。 


7.1 OpenMP 程序 性 能 分 析 


在 串 行 优化 中 ， 人 性 能 分 析 工 具 经 常 能 够 找到 引起 OpenMP 性 能 问题 的 根源 。 最 简单 的 
例子 是 采取 2.1 节 中 介绍 的 对 于 单线 程 的 任何 一 种 方法 ， 并 且 比 较 不 同 标 量 的 配置 文件 。 这 
个 策略 有 几 个 缺点 ， 其 中 最 重要 的 是 标量 工具 不 拥有 具体 OpenMP 特性 的 概念 。 在 标量 配 
置 文件 中 ，OpenMP 结构 类 似 于 组 复制 、 同 步 点 、 自 旋 循 环 、 加 锁 、 临 界 区 域 ， 以 及 能 够 或 
多 或 少 通过 加 密 名 字 推 断 出 被 编译 怖 打包 成 单独 函数 的 部 分 用 户 代码 的 功能 。 

利用 更 高 级 的 工具 可 以 直接 确定 负载 不 均 、 串 行 分 解 ， 以 及 OpenMP 循环 开销 等 (请 参 
考 下 面 关 于 这 些 问题 的 更 多 讨论 )。 在 撰写 本 书 的 时 候 ， 几 乎 没有 免费 的 产品 级 OpenMP 性 
能 分 析 工 具 ， 并 且 在 OpenMP 3.0 标准 中 的 任务 介绍 为 工具 开发 者 带 来 很 多 复杂 的 问题 。 

图 7-1 展现 了 使 用 Windows 平台 下 的 Intel 线程 性 能 分 析 工 具 对 同一 代码 的 不 同 运 行事 
件 时 间 轴 比较 [T23]。 一 个 事件 时 间 轴 包含 应 用 程序 相对 于 时 间 的 行为 信息 。 对 于 OpenMP 
性 能 分 析 ， 就 是 典型 结构 像 并 行 循 环 、 同 步 点 、 加 锁 ， 以 及 负载 不 均 或 者 不 充分 并 行 等 性 能 
问题 。 作 为 一 个 简单 基准 ， 我 们 选择 下 三 角 和 矩阵 和 回 量 乘积 为 例 : 


do k=1, NITER 
2 !SOMP PARALLEL DO SCHEDULE (RUNTIME) 

3 do row=1,N 

4 do col=1, row 

5 C(row) = C(row) + A(col,row) * B(col) 
6 enddo 

7 enddo 

8 !SOMP END PARALLEL DO 

9 enddo 


(注意 这 里 内 层 循环 变量 的 变量 私有 化 没有 必要 ， 这 是 因为 Fortran 中 自动 实现 , 但 是 C/ 
C++ 不 成 立 。) 如 果 使 用 静态 调度 ， 这 个 问题 显然 遭遇 严重 的 负载 不 均 。 图 7-1 下 面 的 面板 
展示 的 是 两 个 线程 的 STATIC 调度 时 间 轴 ， 下 面 的 线程 (黑色 显示 ) 是 一 个 用 于 管理 目的 的 
看守” 线程 并 且 可 以 被 忽略 ， 这 是 因为 它 不 执行 用 户 代 码 。 在 遇 到 第 一 个 并 行 区 域 之 前 ， 
只 有 一 个 线程 执行 。 在 那 之 后 ， 每 一 个 线程 使 用 不 同 颜色 或 者 表示 不 同行 为 编码 的 阴影 显 
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示 。 孵 化 阴影 区 表示 “ 自 旋 "”， 也 就 是 ， 这 个 线程 在 循环 中 等 待 直到 被 给 予 更 多 的 工作 或 者 
遇 到 同步 点 (实际 上 ， 一 段 时 间 后 ， 自 旋 线程 常常 进入 睡眠 状态 以 便 释放 资源 ; 这 可 以 在 第 
二 个 同步 点 前 观察 到 。 这 种 行为 往往 受到 用 户 的 影响 )。 正 如 期 望 ， 静 态 调度 导致 很 强 的 负 
载 不 均 以 至 于 第 一 个 线程 的 CPU 时 间 有 一 半 被 浪费 。 采 用 STATIC, 16 调度 (上 面 的 面板 )， 


这 种 不 均 消 失 并 且 性 能 提高 了 大 约 30%。 
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-Piolle View | Summam 1] 


a AAA A = 


板 ) 和 “STATIC”( 下 面 的 面板 ) OpenMP 调度 


线程 性 能 分 析 通 筑 不 仅 胜 任 时 间 轴 显示 。 通 第 ， 
点 、 目 旋 循 环 、 临 界 区 域 ， 或 者 加 锁 的 阻塞 时 间 比 例 
能 够 揭示 一 些 性 能 问题 。 

性 能 缺陷 

正如 其 他 的 并 行 方法 ，OpenMP 倾向 于 并 行 编程 
中 的 标准 问题 : 串 行 分 解 (Amdahl 法 则 ) 和 负载 不 
均 ， 两 者 都 在 第 5 章 讨 论 过 。 对 于 共享 内 存 来 说 ， 通 
信 (以 数据 传输 的 形式 ) 通常 不 是 什么 问题 ， 毕 竟 在 
一 个 计算 节点 中 的 访问 延迟 很 小 并 且 带 宽 很 大 (请 参 
考 第 8 章 的 相关 问题 )。 负 载 不 均 问 题 可 以 选择 合适 
的 OpenMP 调度 策略 来 解决 (请 参考 6.1.6 节 )。 但 是 
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图 7-1 关于 线程 化 代码 的 事件 时 间 轴 上 比较 (三角 和 矩阵 向 量 乘 )， 采 用 “STATIC，16” (上面 的 面 
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图 7-2 ”本 章 大 多 数 基准 使 用 的 双 模 双核 
Xeon 5160 节点 
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仍然 存在 一 般 共 享 内 存 编程 和 OpenMP WY ZE FAR UF cE PERE A. EA PRT A 
给 出 一 些 避 免 典 型 的 OpenMP 性 能 缺陷 的 实践 经 验 。 


7.2.1 减轻 OpenMP 共享 区 开销 


不 管 一 个 并 行 区 域 开始 或 者 终止 ， 抑 或 一 个 并 行 循 环 局 动 或 者 结束 ， 总 存在 一 些 不 可 避 
免 的 开销 。 线 程 必须 复制 或 者 至 少 从 空闲 状态 唤醒 ， 每 个 线程 的 工作 包 (组 ) 的 大 小 必须 确 
定 ， 在 任务 分 配 或 者 动态 / 指导 性 调度 方案 下 ， 每 个 可 使 用 的 线程 必须 提供 一 个 新 的 任务 以 
继续 工作 ， 并 且 默 认 存 在 于 工作 共享 结构 或 者 并 行 区 域 的 同步 点 负责 同步 所 有 线程 。 依 据 
5.3.6 节 中 讨论 的 改进 后 可 扩展 模型 ， 这 些 贡 献 被 看 作 “ 通 信 开 销 ”。 因 为 它们 倾向 线性 于 线 
程 数 量 ， 所 以 OpenMP 似乎 不 太 适 合 很 强 的 扩展 情形 ; 假设 N 个 线程 ， 加速 比 是 

l 
S N) = oE Is) INFN FA SEN 

其 中 4 表示 NV 个 无 关 开 销 。 当 N 很 大 时 ， 这 个 表达 式 趋 于 零 ， 似 乎 OpenMP 编程 模型 
已 经 够 好 了 。 然 而 实践 中 ， 一 切 没 有 损失 : 当然 性 能 作用 依赖 于 x 和 4。 如 果 遵 循 一 些 简 单 
的 指导 建议 ，OpenMP 开销 的 负 作 用 则 可 以 很 大 程度 减少 。 

1. 如果 并 行 不 够 好 ， 那 么 使 用 串 行 代码 

这 可 能 是 OpenMP 最 常见 的 性 能 问题 。 如 果 工 作 共 享 结构 每 个 线程 不 能 包含 足够 “ 工 
作 ” ,例如 一 个 简单 循环 的 每 次 迭代 执行 时 间 很 少 ，OpenMP 开销 将 会 导致 很 差 的 性 能 。 如 
果 循 环 次 数 少 于 一 定 国 值 ， 那 么 串 行 版 程序 更 是 一 个 好 的 选择 。OpenMP 的 IF 语句 有 助 于 
这 种 情形 : 

| !SOMP PARALLEL DO IE (N>1700) 

2 do i=1,N 

3 A(i) = B(i) + C(i) * D(i) 

4 enddo 

s !$OMP END PARALLEL DO 


图 7-3 sb AN BY et FE LAH Xenon 5160 节点 上 (概略 图 如 图 7-2 ) 向 量 三 联 数据 纯 串 行 ， 
OpenMP 上 的 一 个 和 四 个 线程 的 比较 。 即 使 使 用 单线 程 ， 在 很 小 的 NN 时 ，OpenMP 也 会 带 来 
开销 (请 参考 下 面 关 于 工作 共享 结构 开销 的 讨论 )。 如 果 阅 值 选择 合 理 ， 那 么 使 用 IF 语句 会 
产生 一 个 优化 的 线程 和 串 行 循环 版 本 的 组 合 ， 并 且 当 超大 循环 长 度 不 能 保证 时 ， 这 是 强制 
的 。 然 而 ，N 小 于 1000 时 ， 将 存在 一 些 可 测量 的 性 能 点 ; 毕竟 ， 相 对 于 串 行 情形 ， 更 多 的 
代码 将 被 执行 。 注 意 正 语句 能 够 (部 分 ) 解决 这 种 问题 ， 但 是 不 是 并 行 循 环 开销 的 原因 。 接 
下 来 将 详尽 地 介绍 可 以 减少 它 的 方法 。 

避免 取消 所 有 并 行 执行 ,使 用 NUM_ THREADS 语句 也 可 能 是 一 种 减少 特定 并 行 区 域 线 
程 数 量 的 方式 : 


1 !SOMP PARALLEL DO NUM_THREADS (2) 
2 do i=1,N 

3 A(i) = B(i) + C(i) * DS) 

4 enddo 

5 !$OMP END PARALLEL DO 


TAD FH) Be EE BRD PE, Ae AR AE BE SIF, B/D PEEK 
度 如 此 。 

2. 避免 隐 式 同步 点 

需要 意识 大 多 数 的 OpenMP 工作 共享 结构 (包括 OMP DO/END DO) 会 自动 在 结构 结 
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束 时 插入 同步 点 。 这 种 默认 行为 是 安全 的 ， 因 为 这 样 能 够 保证 所 有 的 线程 能 够 在 结构 体 结 
束 前 完成 各 自分 担 的 工作 。 在 不 需要 同步 点 的 情况 下 ， 可 以 使 用 NOWAIT 语句 移 除 隐 式 同 
步 点 : 


1 !$OMP PARALLEL 
!SOMP DO 
do i=1,N 
A(i) = funcl (B(i)) 
enddo 
!SOMP END DO NOWAIT 
! still in parallel region here. do more work: 
!SOMP CRITICAL 
CNT = CNT + 1 
!SOMP ENB CRITICAL 
!'SOMP END PARALLEL 
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图 7-3 OpenMP 开销 和 I ( N>1700 ) 语句 效益 对 于 向 量 三 联 基准 。( 如 图 7-2 Intel Xeon 5160 


3.0GHz 双 权 双核 系统 ，Intel 10.1 编译 器 ) 


在 并 行 区 域 末 尾 的 隐 式 同步 点 是 不 能 够 移 除 的 。 虽 然 类 似 临 界 区 域 这 样 的 隐 式 同步 点 会 
审 来 同步 开销 ， 但 是 经 常 需 要 它们 来 避免 兖 争 条 件 。 程 序 员 需要 细心 检查 NOWAIT 语句 是 
否 安全 。 

下 面 的 7.2.2 广 显 示 了 实验 上 如 何 确定 工作 共享 循环 标准 实例 的 同步 开销 。 

3， 尽 量 减少 并 行 区 域 数量 

一 般 我 们 会 尽 最 大 可 能 并 行 化 能 套 循环 ， 并 且 和 前 面 的 指导 性 建议 保持 内 在 一 致 性 。 但 
是 并 行 化 内 层 循 环 会 导致 OpenMP 开销 的 增长 ， 这 是 因为 将 创建 或 者 唤醒 一 组 线程 : 


] double precision :: R 

2 R = 0.d0 

3 do j=1,N 

4 !SOMP PARALLEL DO REDUCTION (+:R) 
5 do i=1,N 

6 R= R + A(i,3j) * B(i) 

7 enddo 

8 !SOMP END PARALLEL DO 
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9 C(j) = C(j) +R 
10 enddo 


在 这 个 特殊 例子 中 ， 一 组 线程 将 重新 启动 N 次 , j 循环 的 每 次 迭代 重启 一 次 。 将 并 行 结 
构 移 至 外 层 循环 将 减少 1 个 线程 的 重启 ， 并 且 获 取 额 外 的 好 处 ， 这 是 因为 所 有 线程 将 工作 在 
结果 向 量 的 不 同 部 分 ， 所 以 reduction 语句 可 以 省 略 : 


1 !SOMP PARALLEL DO 

2 do j=1,N 

3 do i=1,N 

4 Cts) = C(I +t ADP + Bla 
5 enddo 

6 enddo 

7 !SOMP END PARALLEL DO 


线程 组 创建 或 者 重启 越 少 ， 引 入 开销 越 少 。 这 种 策略 需要 额外 的 编程 技巧 ， 这 是 因为 如 
果 线 程 组 在 共享 工作 结构 间 继 续 运 行 ， 那 些 被 单个 线程 执行 的 代码 将 会 元 余地 被 其 他 所 有 线 


程 执行 。 思 考 下 面 的 例子 : 


1 double precision :: R,S 
2 R = 0.da0 

3 !SOMP PARALLEL DO REDUCTION (+:R) 
4 do i=1,N 

5 A(i) = DO_WORK(B(i) ) 
6 R= R + B(i) 

7 enddo 

s !SOMP END PARALLEL DO 

9 S = SIN(R) 

10 !SOMP PARALLEL DO 

n do i=1,N 

12 A(i) = A(i) + S 

13 enddo 

14 !'SOMP END PARALLEL DO 


循环 之 间 的 SIN 函数 仅 被 主线 程 调 用 。 在 第 一 次 循环 结尾 ， 所 有 的 线程 同步 并 且 其 至 
有 可 能 进入 休眠 ， 它 们 在 第 二 次 循环 执行 时 唤醒 。 为 了 避免 这 种 开销 ， 可 以 采用 连续 的 并 


行 区 域 : 
| double precision :: R,S 
2 R = 0.d0 
3 !$OMP PARALLEL PRIVATE (S) 
4 !SOMP DO REDUCTION (+:R) 
5 do i=1,N 
6 A(i) = DO_WORK (B (i)) 
7 R= R + B(i) 
8 enddo 


9 !S$OMP END DO 

10 S = SIN(R) 

1 = !SOMP DO 

12 do i=1,N 

13 Ati) = A(i) + S 
14 enddo 

is !SOMP END DO NOWAIT 
1 !SOMP END PARALLEL 


现在 的 第 10 行 的 SIN 函数 将 由 所 有 的 线程 计算 ， 并 且 S 必须 是 私有 化 的 。 第 2 次 循环 
可 以 安全 使 用 NOWAIT 语句 来 减少 同步 开销 。 对 于 第 一 次 循环 来 说 这 是 行 不 通 的 ， 因 为 最 
终 的 计算 结果 只 有 在 所 有 线程 同步 之 后 合法 。 

4. 避免 “普通 ”负载 不 均 

任务 数量 或 者 并 行 循 环 跳 脱 计数 ， 相 对 于 线程 数量 应 该 很 大 。 如 果 跳 脱 计 数 是 很 小 的 、 
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不 是 线程 数量 整数 倍数 ， 那 么 一 些 线程 相对 于 其 他 线程 做 很 少 的 工作 ， 从 而 导致 负载 不 均 。 
这 种 作用 独立 于 其 他 的 负载 均衡 问题 或 者 开销 问题 ， 也 就 是 ， 当 每 个 任务 的 工作 量 相近 并 且 
OpenMP 开销 可 以 忽略 时 ， 它 仍然 会 发 生 。 

一 个 典型 情况 就 是 当 在 高 线程 化 架构 上 运行 深层 次 能 套 循 环 时 ， 这 种 情况 可 能 很 重要 
[065] (更 多 关于 硬件 线程 化 信息 请 参考 1.5 节 )。 线 程 数 量 越 多 ， 并 行 〈 外 层 ) 循环 上 每 个 


线程 获取 的 任务 将 会 越 少 : 
I double precision, dimension(N,N,N,M) :: A 
2 !SOMP PARALLEL DO SCHEDULE (STATIC) REDUCTION (+:res) 
3 do 1=1,M 
4 do k=1,N 
5 do j=1,N 
6 do i=1,N 
7 res = res + A(i,j,k,1) 
8 enddo ; enddo ; enddo ; enddo 
9 !SOMP END PARALLEL DO 


这 里 的 外 层 循 环 是 并 行 化 显然 的 候选 ， 因 为 这 样 导 致 被 执行 工作 共享 循环 (和 隐 式 同步 
点 ) 的 数量 最 少 并 生成 最 少 开 销 。 然 而 ， 外 层 循环 长 度 M 可 能 十 分 小 。 在 最 佳 可 能 条 件 下 ， 
如 果 t 表示 线程 数量 ， 则 一 次 迭代 中 会 有 上 mod(M, 1) 个 线程 获得 块 组 小 于 其 他 的 线程 。 如 果 
M/t 很 小 ， 负 载 不 均 将 影响 扩展 性 。 

COLLAPSE 语句 (OpenMP 3.0 引 入 ) 有 助 于 解决 这 种 情况 。 对 于 完美 循环 圣 套 ， 也 就 
是 ， 在 不 同 的 do (和 enddo) 语句 之 间 没 有 代码 并 且 循 环 次 数 不 相 互 依赖 ， 这 条 语句 将 一 定 
数量 的 循环 层次 合 一 。 自 动 计算 原始 的 循环 索引 以 便 循环 体 保持 不 变 : 


double precision, dimension(N,N,N,M) :: A 


1 
2 !SOMP PARALLEL DO SCHEDULE (STATIC) REDUCTION (+:res) COLLAPSE (2) 
3 do 1=1,M 

4 do k=1,N 

5 do j=1,N 

6 do i=1,N 

7 res = res + A(i,j,k,1) 

8 enddo ; enddo ; enddo ; enddo 

9 !SOMP END PARALLEL DO 


这 里 最 外 层 循环 合成 的 循环 长 度 为 MxN， 生 成 的 长 循环 将 被 所 有 的 线程 并 行 执 行 。 这 
将 改善 负载 均衡 问题 。 

5. 避免 动态 / 指导 性 循环 调度 或 任务 分 配 

所 有 并 行 循环 调度 选项 (除了 STATIC) 和 任务 结构 需要 一 些 重要 计算 或 者 记录 以 便 能 
够 找 出 那个 用 来 计算 下 一 个 块 组 或 者 任务 的 线程 。 如 果 每 个 任务 包含 很 少 的 工作 ， 那 么 开销 
会 非常 小 。 通 过 一 个 简单 基准 测试 ， 可 以 粗略 估计 为 一 个 线程 分 配 新 的 循环 块 组 的 开销 。 
图 7-4 显示 了 对 于 一 个 简单 的 纯 计 算 负 载 并 行 循环 的 静态 和 动态 调度 的 性 能 比较 : 


1 !S$OMP PARALLEL DO SCHEDULE (RUNTIME) REDUCTION (+:s) 
do i=1,N 


2 
3 s = s + compute (i) 
4 enddo 

s !SOMP END PARALLEL DO 


compute() 函数 执行 一 些 寄存 器 内 部 计算 (lon, Mea HA) 将 花费 几 百 个 周期 。 
它 具 体 做 什么 并 不 重要 ， 只 要 它 不 干扰 主 并 行 循环 也 不 引起 存储 级 别 的 带宽 瓶颈 。N 应 该 足 
够 大 以 便 OpenMP 循环 的 启动 开销 可 以 忽略 不 计 。z 个 线程 的 性 能 基线 一 一 P.(I) 一 一 是 以 每 
秒 百 万 迭代 次 数 为 单位 ， 测 量 时 不 包含 块 组 的 静态 调度 (请 参考 图 7-4 中 运行 在 图 7-2 描绘 
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的 Xeon 5160 双核 双 模 节点 上 两 个 核 中 的 两 个 线程 )。 这 个 基线 不 依赖 线程 和 核 的 绑 定 【在 
cache 组 内 部 、 跨 越 不 同 的 ccNUMA 领域 等 )。 这 是 因为 每 一 个 线程 仅 执行 一 个 块 组 ， 并 且 
任何 的 OpenMP 开销 都 只 发 生 在 工作 共享 结构 的 开始 和 结尾 。 当 N 很 大 时 ， 静 态 基线 将 比 
纯 串 行 的 性 能 大 t 倍 。 
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-a IS 动态 
e-e IS HA 
o— IS 指导 性 的 
o -o 2S 动态 
œ -02S 静态 

: o-o 2S 指导 性 的 


PERE [ 百 万 次 迭代 A] 


Ea 16 32 64 

JIN 

图 7-4 EAR: 运行 在 类 似 图 7-2 所 示 的 Intel Xeon 5160 3.0 GHz LAIKA BEAMS KIA 
环 次 数 的 工作 共享 循环 ， 分 别 在 L2 组 中 的 双核 (1S) 或 者 不 同 槽 (2S) 静态 ( 满 周期 ) 
和 动态 (开放 符号 ) 调度 性 能 对 比 ( Intel 10.1 编译 器 )。 插 图 : 以 分 配给 每 个 线程 单个 


块 组 的 处 理 需 周期 计算 开销 


不 管 何 时 块 组 被 任何 调度 变 体 使 用 而 为 一 个 线程 分 配 新 块 组 花费 的 时 间 被 看 做 开销 。 
图 7-4 中 的 主 面板 显示 了 当 线程 分 别 运行 在 一 个 L2cache 组 (关闭 符号 ) 和 不 同 槽 (开放 符 
号 ) 上 的 静态 (圆圈)、 动 态 (方块 ) 和 指导 性 (菱形 ) 调度 性 能 数据 。 正 如 所 期 望 ， 小 块 组 
的 开销 最 大 ， 并 且 仅 在 动态 调度 占 主 要 地 位 。 指 导 性 调度 表现 最 好 ， 这 是 因为 在 循环 开始 时 
大 块 组 被 分 配 ， 并 且 显 示 的 块 组 还 是 最 小 的 边界 (请 参考 图 6-2). EA L2 内 情形 的 区 别 
仅 对 于 动态 调度 来 说 很 明显 ， 这 是 因为 任何 工作 分 布 都 需要 一 些 公 共 资 源 。 如 果 公 共 资 源 保 
持 在 共享 cache 中 ， 那 么 块 组 分 配 会 更 快 。 尽 管 要 快 于 指导 性 调度 ， 但 是 由 于 平均 块 组 值 很 
大 ， 所 以 效果 不 明显 。 

WR P(t, c) 是 在 块 组 大 小 为 c 的 t 个 线程 的 性 能 ， 那 么 每 次 迭代 执行 的 每 个 线程 的 静态 
基线 和 “分 块 ”版 本 的 区 别 是 每 次 迭代 开销 。 每 个 完整 块 组 是 


t i | 
Ta 4t, o-ta ED (7-2) 


图 7-4 的 插图 显示 以 CPU 周期 计算 的 开销 基本 上 与 至 少 大 于 4 块 的 块 组 大 小 无 关 。 当 
两 个 线程 都 运行 在 L2 组 里 ， 给 一 个 线程 分 配 新 的 块 组 将 花费 200 周期 ， 然 而 运行 在 不 同 槽 
上 则 花费 350 周期 (这 些 时 间 包 括 静 态 调 度 中 每 个 块 组 50 个 周期 的 开销 )。 我 们 又 遇 到 了 决 
定性 的 具有 互 斥 线程 安排 或 者 与 其 相近 的 情形 。 

请 注意 ， 尽 管 一 般 性 方法 论 适 合 于 所 有 的 共享 内 存 系统 ， 但 是 分 析 结 果 还 是 依赖 于 硬件 
FETE A EAX] OpenMP 工作 共享 结构 的 具体 实现 。 实 际 的 数量 可 能 不 同 的 平台 差别 很 大 。 

其 他 在 这 个 基准 中 没有 提 到 的 因素 能 够 影响 动态 调度 的 工作 共享 结构 的 性 能 。 在 内 存 约 
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束 的 循环 代码 中 ， 如 果 块 组 很 小 ， 则 每 次 预 取 不 高 效 或 者 不 可 能 实现 。 进 一 步 ， 由 于 内 存 访 
问 的 随机 性 ，ccNUMA 局 部 性 很 难保 持 ， 这 也 更 倾向 于 指导 性 调度 。 关 于 这 个 问题 的 详细 
细节 请 参考 8.3.1 节 。 


7.2.2 决定 短 循 环 的 OpenMP 开销 


这 个 问题 产生 于 如 何 估 计 一 个 并 行 工作 共享 结构 可 能 市 来 的 开销 。 一 般 地 ， 开 销 由 两 部 
分 组 成 : 固定 部 分 和 依赖 于 线程 数量 的 变动 部 分 。 虽 然 不 同系 统 的 开销 存在 巨大 差异 ， 但 是 
通常 是 CPU 周期 几 百 倍 或 者 几 千 倍数 量 级 。 很 容易 通过 底层 基准 获取 数据 的 简单 性 能 模型 
来 计算 开销 。 作 为 一 个 例子 ， 我 们 选取 短 长 度 向 量 三 元 组 并 且 采 取 静 态 调度 以 便当 每 个 核 拥 
A ACH LI 时 能 够 并 行 运行 不 同 量 级 (由 于 共享 cache 或 者 主 存 通常 是 瓶 贷 ， 尤其 在 多 核 
系统 中 ， 所 以 大 向量 性 能 将 得 不 到 扩展 ): 


!SOMP PARALLEL PRIVATE (j) 
do j=1, NITER 


l 

2 

3 !$OMP DO SCHEDULE (static) NOWAIT ! nowait is optional (see text) 
4 do i=1,N 

5 A(z) = BC) + CCL) + Di) 

6 enddo 

7 !$OMP END DO 

8 enddo 

9 !SOMP END PARALLEL 


通常 ， 选 择 NITER 以 便 全 部 时 间 能 够 被 准确 计算 并 且 一 次 启动 〈 第 一 次 加 载 数据 到 
cache) 的 影响 变 得 不 表 重 要 。NOWAIT 语句 是 可 选 的， 这 里 仅 用 来 证 明 在 循环 工作 共享 结 
构 中 的 隐 式 同步 点 的 影响 (参考 下 面 )。 

假设 基于 上 个 线程 的 问题 规模 为 N 的 性 能 模型 的 全 部 运行 时 间 被 分 成 计算 和 建立 或 者 关 
闭 部 分 : 


T(N, t) =T.(N, t) +T, (t) (7-3 ) 
进一步 假设 我 们 已 经 衡量 了 纯 串 行 性 能 P,(N)， 这 样 我 们 可 以 写成 
2N 
Te (N, t) = Tp. CW) (T-A) 


这 人 允许 与 OpenMP 开销 无 关 的 X 个 独立 性 能 行为 。 分 子 中 的 因子 2 是 因为 性 能 是 以 
MFlop/s 计算 的 并 且 每 次 循环 迭代 含有 两 个 Flop。 如 上 所 述 ， 建 立 或 者 关闭 时 间 由 固定 延迟 
部 分 和 依赖 于 线程 数量 的 部 分 组 成 : 

T, (t) =T7,+T, (t) (7-5 ) 
现在 我 们 可 以 计算 在 问题 规模 为 N， 线 程 数 为 t 的 并 行 性 能 : 
2N 2N 
T(N, t) 2N[tP, (Nt) THT, (t) 

图 7-5 展示 了 在 四 个 核 (两 个 槽 ) 上 N 很 小 向 量 三 元 组 的 性 能 数据 ， 包 括 对 模型 ( 见 式 
(7-6)) 上 单线 程 (圆圈 ) 和 四 线程 (方块 ) 情形 参数 适应 ， 并 且 通 过 nowait 语句 消除 隐 式 同 
步 点 (开放 符号 )。 这 表明 以 纳 秒 计算 的 合适 参数 用 TaD, EWR (7-5) 中 定义 。 用 来 计算 
串 行 版 本 P, 值 的 数据 并 不 能 直接 使 用 需要 如 下 进行 近似 

2N 


P. (N) = sap ane Sa 


P (N, t) = (7-6 ) 
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AT 
串 行 拟 合 
4 线程 重启 
线程 


+ 
m 4 
a 
@ 
© 


4 线程 nowait 
1 线程 nowait 


性 能 [MFlop/s] 





10 oo 100 1000 
N 


图 7-5 很 小 的 回 量 的 OpenMP 循环 开销 TD 是 由 式 (7-6) 模型 确定 以 用 来 测量 性 能 数据 的 。 
注意 隐 式 同步 点 的 影响 〈 被 nowait 语句 移 除 )。 方 块 显 示 的 数据 是 从 每 次 循环 启动 并 行 
区 域 获得 的 。(Intel Xeon 5160 3.0 GHz 双核 双 模 节点 〈 人 参考 图 7-2，Intel 编译 器 10.1 ) ) 


其 中 Pra EB AT PE EMU, IFA 7 综合 了 所 有 的 标量 开销 (流水 线 启动 、 循 环 分 支 
错误 预测 等 )。 所 有 参数 都 是 为 衡量 串 行 性 能 数据 而 决定 的 (图 7-5 中 点 虚线 )。 然 后 ， 将 
IN (7-7 ) 代入 式 (7-6): 

1 
(Pe) + (TotTs (DD 2N 
惊奇 的 是 ， 这 里 运行 单独 的 OpenMP 线程 相 比 于 纯 串 行 代码 的 开销 是 可 衡量 的 。 然 而 ， 
当 N1000 时 ， 这 两 个 版 本 达到 近似 的 性 能 ， 不 能 把 这 种 效果 归 因 于 不 高 效 的 标量 代码 ， 
RKE OpenMP 有 时 阻止 高 级 别 循环 优化 。 单 线程 开销 起 源 于 编译 器 无 法 实现 ， 只 好 生成 一 
个 串 行 执行 的 单独 代码 版 本 。 

在 单线 程 同步 点 可 以 忽略 ， 并 且 占 据 四 个 线程 开销 的 绝 大 部 分 。 但 是 尽管 不 考虑 它 ， 在 
那样 的 案例 中 建立 工作 共享 循环 也 花费 大 约 190ns (570 个 CPU 周期 ) (假设 同步 点 是 通过 一 
个 必须 被 所 有 线程 顺序 更 新 的 内 存 变 量 实现 ,那么 确实 可 以 估计 同步 点 开销 的 平均 内 存 延 
述 )。 被 标记 “重启 ”的 数据 (方块 ) 是 通过 使 用 一 个 组 合 的 parallel do 指令 获取 的 ， 这 样 使 
得 一 组 线程 在 内 层 循环 执行 时 被 唤醒 : 


do j=1,NITER 
1SOMP PARALLEL DO SCHEDULE (static) 


P (N, è) = (7-8) 


1 
2 

3 do i=1,N 

4 Ali) = Bia) + Cth) # D (i) 
5 enddo 

6 !SOMP END PARALLEL DO 

7 enddo 


将 唤醒 线程 时 间 从 同步 点 和 工作 共享 开销 分 离 出 来 是 可 能 的 。 这 里 有 近 460ns ( 1380 个 
时 钟 周 期 ) 用 来 重启 线程 组 的 额外 开销 ， 这 也 证 明了 上 面 提 到 的 ， 最 小 化 OpenMP 程序 中 的 
并 行 区 域 数 量 是 有 好 处 的 。 

类 似 于 前 面 章节 中 的 动态 调度 试验 ， 小 OpenMP 循环 引起 的 实际 开销 依赖 像 编 译 器 、 运 
行 时 库 、cache 组 织 和 一 般 节 点 架构 等 许多 因素 影响 。 线 程 组 是 在 一 个 高 速 缓冲 组 还 是 在 几 
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个 高 速 缓冲 组 中 有 很 大 差别 [M41] (如 何 使 用 姻亲 机 制 信息 请 参考 附录 A). 一般 性 结果 是 隐 
sk (还 有 显 式 ) 同步 点 占据 OpenMP 程序 开销 很 大 一 部 分 。EPCC OpenMP 微 基 准 包 [136] 提 
供 了 测量 OpenMP 相关 参数 的 框架 ， 包括 同 步 点 ,但 是 使 用 的 方法 不 同 于 这 里 介绍 的 。 


7.2.3 BTW 


协调 共享 资源 访问 的 最 直接 方式 是 使 用 临界 区 域 。 除 了 注意 一 些 事宜 ， 临 界 区 域 还 存在 
着 串 行 执行 代码 的 可 能 性 。 在 如 下 例子 中 ， 和 矩阵 M 的 列 被 并 行 更 新 。col_calc() grk E A 
一 列 被 更 新 : 


double precision, dimension(N,N) :: M 
integer is c 


l 

2 

3 aT 

4 !SOMP PARALLEL DO PRIVATE (c) 
5 do i=1,K 

6 c = col_calc (i) 

7 !$OMP CRITICAL 

8 M(<,¢} = M(s,e) + £ta) 
9 !$OMP END CRITICAL 

10 enddo 

1 !SOMP END PARALLEL DO 


函数 fO 返回 一 个 用 来 累加 和 矩阵 c 列 的 数组 。 既 然 每 一 列 可 能 被 更 新 多 余 一 次 ， 那 么 数 
组 和 应 该 被 临界 区 域 保护 。 但 是 ， 如 果 第 8 行 花费 了 CPU 大 部 分 时 间 ， 那 么 程序 串 行 执行 
能 获得 很 好 的 效率 并 且 使 用 多 于 一 个 线程 没有 什么 好 处 ; 因为 进入 临界 区 域 需要 额外 开销 ， 
所 以 这 个 程序 运行 较 慢 。 
粗 粒 度 保 护 资源 〈 这 里 指 的 是 矩阵 M) 的 方式 通常 称 为 big fat Jock。 一 种 可 以 使 用 资源 
子 结构 的 情形 ， 也 就 是 ， 和 矩阵 是 由 独立 的 列 组 成 ， 并 且 每 一 列 独 立 访问 。 串 行 化 仅 当 两 个 线 
程 都 试图 更 新 同一 列 时 才 发 生 。 遗 憾 的 是 ， 由 于 名 字 不 能 当做 变量 ， 因 此 命名 临界 区 域 ( 请 
参考 6.1.47) 没有 什么 用 人 处。 然而， 可 以 为 每 一 列 使 用 单独 的 OpenMP 锁 变 量 : 
double precision, dimension(N,N) :: M 
integer (kind=omp_lock_kind), dimension(N) :: locks 
LOMP PARALLEL 
!SOMP DO 
do i=1,N 
call omp_init_lock (locks (i) ) 


enddo 
9 !SOMP END DO 


oe win ù L N 一 


11 !SOMP DO PRIVATE (c) 
12 do i=1,K 


13 c = eol,_caic (i) 

14 call omp_set_lock (locks (c) ) 

15 Miis,c) = MCs,c¢)} + (© 

16 call omp_unset_lock (locks (c) ) 
17 enddo 


is !SOMP END DO 
19 !SOMP END PARALLEL 


GNA BK col_calc() KAE thi AY i Bl c 的 映射 不 只 是 几 列 更 新 ， 那 么 通过 这 种 优化 方式 并 
行 化 能 得 到 很 强 的 加 强 〈 请 参考 [A83] 的 真实 例子 )。 需 要 意识 到 设置 和 去 设置 OpenMP 锁 
会 引起 一 些 开 销 ， 正 如 进入 和 离开 临界 区 域 。 如 果 这 种 开销 与 更 新 矩阵 一 行 开 销 相 比 ， 则 细 
粒度 同步 方案 没有 什么 益处 。 
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如 果 内 存 是 稀缺 资源 ， 那 么 存在 一 种 解决 方案 : 可 以 使 用 共享 数据 线程 局 部 拷贝 将 其 
“ 拉 在 一 起 ”， 举 例 来 说 通过 在 并 行 区 域 的 结尾 进行 归 约 操作 。 在 我 们 的 例子 中 ,通过 在 M 
上 进行 OpenMP 归 约 很 容易 实现 它 。 如 果 K 足够 大 ， 那 么 额外 开销 可 以 忽略 : 


| double precision, dimension(1:N,1,N) :: M 
2 integer :: Cc 

3 ae? 

4 !SOMP PARALLEL DO PRIVATE (c) REDUCTION (+:M) 
5 do i=1,K 

6 c = col_cale(i) 

7 M(:,c} = Mt:,ec) + Ete) 

8 enddo 

9 !SOMP END PARALLEL DO 


注意 数组 上 的 归 约 仅 在 Fortran 中 允许， 并 且 有 进一步 限制 [P11]。 在 C/C++ 中 ， 必 须 
在 并 行 区 域 中 执行 显 式 私有 化 (可 能 使 用 堆 内 存 ) 并 且 人 为 使 用 归 约 ， 正 如 列表 6-2 所 示 。 


7.2.4 JEF 


在 4.2.1 节 中 介绍 的 基于 硬件 一 致 性 的 cache 在 共享 内 存 系 统 中 利用 cache， 这 对 于 程序 
员 来 说 是 透明 的 。 然 而 ， 在 一 些 例子 中 ， 一致 性 cache 通信 量 可 能 将 性 能 压制 到 非常 低 的 水 
平 。 这 种 情形 可 能 发 生 ， 如 果 相 同 cache 行 被 一 组 线程 连续 更 改 以 便 一 致 性 cache 逻辑 被 强 
制 驱除 并 且 迅 速 连续 地 重新 加 载 。 作 为 一 个 例子 ， 考 虑 使 用 维度 为 {1…,8} 的 数组 A 的 一 
些 大 数 计算 直方 图 的 程序 片段 : 


1 integer, dimension(8) :: S 
2 integer :: IND 

3 S = 0 

4 do i=1,N 

5 IND = A(i) 

6 S(IND) = S(IND) + 1 

7 enddo 


在 一 个 直接 并 行 化 中 ， 很 可 能 使 S 成 为 两 维 ， 这 样 可 以 为 每 个 线程 的 局 部 直方 图 保存 空 
间 以 避免 数组 S 上 的 共享 资源 串 行 化 : 


| integer, dimension(:,:), allocatable :: 5 
2 integer :: IND,1ID,NT 

3 !$OMP PARALLEL PRIVATE (ID, IND) 

4 !$OMP SINGLE 

5 NT = omp_get_num_threads () 

6 allocate (S(0:NT, 8) ) 

7 S = 0 

s !$OMP END SINGLE 

9 ID = omp_get_thread_num() + 1 
io !$OMP DO 

1] do i=1,N 

12 IND = A(i) 

13 S(ID,IND) = S(ID,IND) + 1 

14 enddo 

is !$OMP END DO NOWAIT 

16 ! calculate complete histogram 


17 !§OMP CRITICAL 

18 do j=1,8 

19 S$(0,3) = 8(0,5) + S(ID, 5) 
20 enddo 

21 !$OMP END CRITICAL 

22 !$OMP END PARALLEL 


A 


在 第 18 行 开 始 的 循环 收集 所 有 线程 的 部 分 结果 。 尽 管 这 是 一 个 合法 的 OpenMP 程序 ， 
但 是 它 使 用 四 个 线程 并 不 一 定 比 使 用 一 个 线程 快 。 理 由 是 两 维 数组 S 包含 来 自 所 有 线程 的 直 
方 图 数据 。 对 应 于 多 数 处 理 器 上 的 两 个 或 者 三 个 cache 行 ， 使 用 四 个 线程 时 存在 160 字 节 。 
在 第 13 行 中 针对 S 更 改 的 每 个 直方 图 执行 写 的 CPU 都 必须 获取 任 一 高 速 缓冲 行 的 所 有 权 ; 
几乎 每 次 写 都 导致 cache 失效 并 且 引 起 后 续 一 致 性 阻塞 ， 这 可 能 是 因为 在 修改 模式 下 需要 高 
速 缓 冲 行 处 在 另 一 个 处 理 顺 的 cache 中 。 相 对 于 S 适合 单 CPUcache 的 串 行 代码 中 ， 这 样 会 
带 来 很 不 好 的 性 能 。 

在 简单 例子 中 ， 程 序 员 能 够 通过 标准 的 编译 的 寄存 器 优化 消除 错误 共享 。 如 果 关 键 的 更 
新 操作 能 够 作用 于 内 容 仅 在 循环 末尾 写 出 的 寄存 器 ， 这 样 将 没有 cache 失效 出 现 。 在 上 面 的 
例子 中 这 是 不 可 能 的 ， 这 是 因为 第 13 行 计算 S 的 第 二 个 指示 变量 。 

一 且 发 现 问 题 ， 通 过 手动 优化 来 避免 错误 共享 其 实 是 一 个 简单 任务 。 一 个 标准 技术 就 是 
数组 补 全 (array padding)， 也 就 是 ， 不 同 线程 更 新 内 存 位 置 之 间 插入 合适 的 空间 。 在 上 述 直 
方 图 例子 中 , 第 6 行 S(0:NT*CL,8) 语句 分 配 S， 其 中 CL 是 整数 大 小 的 cache 行 ,这 将 为 每 
个 线程 保留 一 个 独占 cache 行 。 当 然 ， 在 程序 其 他 地 方 ，S 的 第 一 个 指示 变量 不 得 不 乘 以 CL 
( 转 置 $ 将 会 省 些 内 存 ， 但 是 主要 问题 依旧 存在 )。 

一 个 很 不 错 的 解决 方案 以 数据 私有 化 形式 存在 〈 请 参考 上 面 的 7.2.3 节 ) : 在 并 行 区 域 的 
入 口 处 ， 每 个 线程 将 在 它们 目 己 的 栈 空间 中 获取 直方 图 数组 的 一 份 本 地 副本 。 不 同 实例 占据 
相同 的 高 速 缓冲 行 是 不 可 能 的 ， 所 以 错误 共享 不 是 一 个 问题 。 进 一 步 ， 使 用 REDUCTION 
语句 可 以 获得 和 前 面 纯 串 行 代码 的 一 个 简化 等 价 版 本 : 


1 integer, dimension(8) :: S 

2 integer :: IND 

3 S=0 

4 !t$OMP PARALLEL DO PRIVATE (IND) REDUCTION (+:S) 
5 do i=1,N 

6 IND = A(i) 

四 S(IND) = S(IND) + 1 

8 enddo 

9 !$OMP EMD PARALLEL DO 


如 果 代 码 不 采用 OpenMP 编译 ， 则 需要 设置 SHF., JEM reduction if], OpenMP x 
持 使 用 合适 起 始 值 来 自动 初始 化 变量 。 

重申 一 下 ， 因 为 我 们 使 用 Fortran， 所 以 可 以 使 用 最 方便 的 形式 CAA) 私有 化 
( OpenMP 标准 不 允许 C/C++ 对 数组 使 用 归 约 ) 并 且 REDUCTION 语句 支持 基本 的 运算 操作 
(加 法 )。 然 而 ， 即 使 不 使 用 归 约 语句 ， 所 需 的 运算 也 很 容易 显 式 构 造 (参见 习题 7.1 )。 


7.3 ”案例 分 析 : 并 行 稀 朴 矩 阵 向 量 乘 


作为 OpenMP 对 重要 问题 的 有 趣 应 用 ， 现 在 我 们 考虑 稀疏 MSM 数据 布局 并 且 通 过 并 行 
化 3.6 节 中 的 CRS 和 JDS 和 矩阵 向 量 乘 代码 来 优化 [A84, A82]. 

无 论 选 择 两 种 存储 格式 中 的 哪 种 ， 一 般 的 并 行 方法 都 是 一 样 的 : 所 有 实例 都 有 计算 结果 
向 量 的 连续 元 素 〈 或 者 块 元 素 ) 的 可 并 行 化 循环 ( 见 图 7-6 )。 对 于 CRS 矩阵 格式 ， 可 以 直 
接 采 用 这 个 原则 。 


© 
1 !$OMP PARALLEL DO PRIVATE (j) 
do i= 1, N; 


O 在 外 层 循环 的 词法 范围 中 私有 化 内 层 循 环 的 指示 变量 在 Fortran 不 是 必需 的 ， 但 是 在 C/C++ 是 必需 的 。 
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3 do j = row_ptr (i), row_ptr(i+l) - 1 

4 C(i) = C(i) + val(j) * B(col_idx(j)) 
5 enddo 

6 enddo 

7 !$OMP END PARALLEL DO 


鉴于 外 层 循 环 很 长 ， 这 里 OpenMP 开销 不 是 问题 。 然 而 由 于 依赖 于 具体 的 和 矩阵 形 
式 ， 如 果 非 常 短 的 或 者 很 长 的 矩阵 行 在 某 些 区 域 聚 集 ， 那 么 一 些 负载 不 均 可 能 会 出 现 。 像 
DYNAMIC 或 者 GUIDED 的 不 同 OpenMP 调度 策略 可 能 有 助 这 样 的 情形 。 








图 7-6 Fi MVM 的 并 行 化 方法 (五 个 线程 )。 所 有 标记 的 元 素 都 在 并 行 化 循环 的 一 个 迭代 中 
处 理 。RHS 向 量 被 所 有 线程 访问 


JDS 的 MVM 的 并 行 化 也 很 简单 


| !$OMP PARALLEL PRIVATE (diag, diagLen, offset) 


2 do diag=1, Nj 

3 diagLen = jd_ptr(diagt+l) - jd_ptr (diag) 

4 offset = jd_ptr(diag) - l 

5 !$OMP DO 

6 do i=l, diagLen 

7 C(i) = C(i) + val(offset+i) +» B(col_idx(offset+i)) 
8 enddo 

9 !$OMP END DO 

10 enddo 


ii !$OMP END PARALLEL 


在 这 个 例子 中 并 行 循环 是 内 存 循 环 ， 但 是 由 于 循环 次 数 很 大 ， 所 以 这 里 并 不 存在 
OpenMP 开销 问题 。 进 一 步 ， 相 对 于 CRS 并 行 版 本 ， 由 于 所 有 内 层 迭 代 包 含 等 量 工作 量 ， 
所 以 也 不 存在 负载 不 均 问题 。 所 有 一 切 看 起 来 很 完美 ,但 是 对 于 JDS AY MVM 来 说 并 不 是 
这 样 。 然 而 ,循环 展开 和 分 块 版 本 应 该 能 够 很 好 等 价 地 并 行 化 。 对 于 块 化 代码 ( 见 图 3-19), 
所 有 块 上 的 外 层 循环 是 很 自然 的 候选 : 


1 !§$OMP PARALLEL DO PRIVATE (block start,block end,i,diag, 
2 !$OMP& diagLen, offset) 

3 do ib=1,N,,6 

4 block_start = ib 

5 block_end = min (ib+b-1,N,) 

6 do diag=1,N, 

7 diagLen = jd_ptr(diagt+1)-jd_ptr (diag) 
8 

9 


offset = jd_ptr (diag) - 1 

if(diagLen .ge. block_start) then 
10 do i=block_start, min(block_end, diagLen) 
1 C(i) = C(i)t+val (offset+i) *B(col_idx(offset+i) ) 
12 enddo 


13 endif 


A: 


14 enddo 
15 enddo 
i6 !SOMP END PARALLEL DO 


这 个 版 本 甚至 能 够 获得 更 少 的 OpenMP 开销 ， 这 是 因为 DORCERSE. it 
的 是 ， 由 于 和 矩阵 行 按照 大 小 排序 ， 所 以 仍然 存在 负载 不 均 的 可 能 。 但 是 由 于 依赖 于 循 
环 指 示 变 量 的 负载 可 以 粗略 估计 ， 所 以 具有 一 个 线程 大 小 的 块 组 静态 调度 可 以 避免 这 
种 影响 。 

图 7-7 展现 的 是 在 三 种 不 同体 系 结构 上 并 行 的 CRS 和 块 化 IDS 版 本 的 性 能 和 扩展 行 
为 : 两 个 ccNUMA 系统 (Opteron 和 SGI Altix， 等 价 于 图 4-5 和 图 4-6 中 的 块 状 图 ) 和 
一 个 UMA 系统 (类似 图 4-4 中 的 Xeon/Core2 节点 )。 在 所 有 实例 中 ， 代 码 尽量 运行 在 很 
少 的 局 部 域 或 者 柳 上 ， 也 就 是 ， 在 下 一 次 迭代 之 前 首先 填 满 一 个 LD MAM. A ia T 
LD 内 或 者 权 内 相对 于 单 核 的 扩展 基线 。 这 个 层次 上 所 有 系统 都 考虑 带宽 的 限制 。 使 用 第 
二 线程 获取 的 性 能 远 不 是 所 期 望 的 2 倍 。 然 而 ， 这 种 行为 还 很 严重 依赖 于 单 核 利 用 局 部 内 
存 能 力 的 接口 : 在 Atlix 上 相对 低 的 单线 程 CRS 性 能 导致 双 线 程 近似 1.8 倍 的 加 速 (参见 
5.3.8 PB) 
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A Z 7 

A CRS - AMD Opteron 
~] bJDS - AMD Opteron 

_| Æ CRS - SGI Altix 
回 bJDS - SGI Altix 

i CRS - Intel Xeon/Core2 
E bJDS - Intel Xeon/Core2 


AL LN fi 
HER / 节点 
图 7-7 在 三 种 不 同体 系 结构 上 ， 相 对 于 CRS (填充 条 ) 和 块 化 JDS (LAA), PH MVM 的 
OpenMP 直接 并 行 化 的 性 能 和 较 强 的 扩展 性 。Intel Xeon/Core2 系统 是 UMA 类 型 ， 另 
外 两 种 系统 是 ccNUMA。 不 同 的 扩展 基线 已 经 被 分 离开 (FER EARRA LD, H 
图 中 是 单 核 ) 


BRA LD 的 扩展 性 (图 7-7 中 的 主 框架 ) 揭示 了 ccNUMA Ail UMA 系统 上 的 一 个 
重要 区 别 。 当 使 用 第 二 个 槽 时 ， 仅 UMA 节点 表现 了 期 望 的 加 速 比 ， 这 是 由 于 第 二 个 前 端 
总 线 提 供 了 额外 的 带宽 (对 于 基于 FSB 的 设计 ， 存 在 跨 槽 带宽 扩展 性 少 于 理想 值 的 问题 ， 
所 以 这 里 我 们 看 不 到 2 倍 的 加 速 化 )。 尽 管 ccNUMA 体系 结构 能 够 实现 扩展 的 带宽 ,但 是 
代码 并 不 适用 于 ccNUMA ， 表 现 出 差 的 扩展 性 或 者 在 Altix 上 ， 当 LD 数量 变 大 时 性 能 甚 
至 出 现下 降 。 

ccNUMA 实现 理想 带宽 失败 的 原因 在 于 我 们 忽视 了 一 个 还 没有 考虑 的 扩展 性 的 必要 前 
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提 : 正确 的 局 部 访问 数据 和 线程 布局 。 请 参考 第 8 章 解 决 这 个 问题 的 编程 技巧 以 及 [066] 获 
取现 代 共 享 内 存 系统 上 一 个 更 一 般 的 并 行 稀疏 MVM 优化 评估 。 


习题 

7.1 私有 化 训练 : 7.2.4 节 中 我 们 已 经 优化 了 消除 错误 共享 的 并 行 计 算 直 方 图 的 代码 。 最 终 代 码 采 用 
REDUCTION 语句 来 计算 所 有 S( ) 部 分 结果 的 和 。C/C++ 中 如 何 实现 ? 

7.2 Rm: 问题 规模 固定 ， 当 线程 数量 增加 ( 强 扩展 )， 为 应 用 程序 获取 额外 的 cache 空间 ， 存 
在 使 整个 工作 集 进 入 所 有 使 用 核 聚 集 的 cache 中 。 加 速 比 将 比 额 外 数量 的 核能 够 增加 的 要 多 。 你 
能 够 从 2 维 并 行 Jacobi 解决 方法 的 性 能 数据 中 识别 这 个 情形 ( 见 图 6-3 ) ? 当然 ， 结 果 可 能 仅 对 
于 一 种 类 型 的 机 器 合理 。 对 于 一 般 基于 cache 的 机 器 需要 什么 条 件 才能 使 代码 获取 超 线 性 加 速 比 
的 可 能 性 ? 

7.3 归 约 和 初始 值 : 在 7.2.1 节 一 些 减少 并 行 区 域 数 量 的 例子 中 ， 尽 管 OpenMP 自动 初始 化 这 样 的 
变量 , 但 是 在 进入 并 行 区 域 前 ， 我 们 显 式 设 置 归 约 变量 R 为 0。 为 什么 需要 这 样 做 ? 

7.4 最 优 线程 数 : 在 拥有 六 个 核 、 两 个 槽 和 三 个 核 L3 组 的 ccNUMA 系统 上 ， 对 于 内 存 约束 多 线程 应 
用 程序 ， 最 优 的 线程 数量 是 多 少 ? 


第 8 章 | 
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ccNUMA 体系 结构 的 局 部 性 优化 


前 面 关 于 ccNUMA 架构 小 节 中 已 经 提 到 ， 对 于 性 能 受制 于 内 存 带 宽 、 局 部 性 和 冲突 问 
题 (请 参考 图 8-1 和 图 8-2) 的 应 用 程序 ， 当 线程 或 者 进程 以 及 它们 的 数据 没有 小 心 布局 在 
ccNUMA 系统 的 局 部 区 域 时 ， 性 能 会 变 差 。 遗 憾 的 是 ， 现 在 的 OpenMP 标准 (3.0) 没有 提 
到 页 布局 ， 所 以 这 将 取决 于 程序 员 使 用 的 系统 构建 工具 。 本 章 探 讨 一 般 的 ， 即 正确 布局 数据 
的 绝 大 多 数 系统 无 关 选 项 以 及 所 能 避免 的 缺陷 。 我 们 将 说 明 面 页 面 布局 对 于 共享 内 存 并 行 编 


程 并 不 是 什么 问题 。 
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Tan 
图 8-1 ccNUMA 系统 上 的 局 部 性 问题 。 
被 映射 到 局 部 区 域 的 内 存 页 被 不 相连 的 
处 理 需 访问 导致 NUMA 阻塞 





8.1 ccNUMA 的 局 部 访问 


尽管 如 今 ccNUMA 架构 广泛 存在 ， 但 
是 并 不 是 所 有 应 用 领域 都 拥有 ccNUMA 相 
关 知 识 ; 内 存 约 束 性 代码 必须 被 设计 为 采 
用 合适 的 页 布局 [067]。 布 局 问题 涉及 两 个 
方面 : 首先 ， 程 序 员 必须 保证 内 存 被 映射 
到 实际 访问 它们 的 处 理 堪 局 部 区 域 。 这 能 
最 小 化 网 络 上 的 NUMA 阻塞 。 这 里 的 “ 映 
射 ”意味 着 用 来 描述 虚实 内 存 关 系 的 页 表 
项 被 设置 。 从 而 ， 在 ccNUMA 系统 上 的 局 
部 访问 总 是 OS 页 面 层次 上 ， 典 型 的 页 大 小 
是 (常见) 4kB 或 者 (不 常见 ) 16kB， 有 时 
其 至 更 大 。 然 而 ， 当 仅 包 含 几 个 页 的 工作 
集 的 严格 局 部 性 可 能 很 难 实现 ， 尽 管 此 情 
形 的 问题 是 受 cache 限制 的 。 其 次 ,线程 或 
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图 8-2 ccNUMA 系统 上 的 冲突 问题 。 尽 





管 网 络 很 快 ， 但 是 单一 局 部 区 域 并 不 能 满 
足 局 部 和 非 局 部 并 发 访问 的 带宽 需求 





图 8-3 四 个 局 部 区 域 LD0…LD3 和 每 个 LD 两 个 
核 的 ccNUMA 系统 (基于 AMD Opteron 双核 处 理 
船 )， 通 过 高 传输 率 网 络 相连 。 这 里 存在 三 个 层次 的 
NUMA 访问 (局 部 区 域 、 一 级 跳 著 、 两 级 跳跃 ) 
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者 进程 必须 被 固定 在 最 初 映射 它们 内 存 区 域 的 CPU 上 以 便 不 失去 访问 局 部 性 。 下 面 我 们 假 
设 采 用 了 合适 的 关联 机 制 (参考 附录 A). 

一 个 含有 四 个 局 部 区 域 的 典型 ccNUMA 节点 由 图 8-3 给 出 。 每 个 槽 使 用 两 个 高 速 传输 
CHT) 链接 相 邻 区 域 ， 这 样 就 形成 了 一 个 “封闭 链 式 ”拓扑 结构 。 这 样 根 据 访 问 页面 所 需 的 
HT 跳跃 40，1，2 )， 内 存 访问 被 分 为 三 个 层次 。 不 同系 统 上 拥有 的 不 同 远程 带宽 和 延迟 开 
销 ; 回 量 测量 至 少 能 够 提供 粗略 的 指导 。 请 参考 下 面 关 于 如 何 控制 页 布局 细节 的 内 容 。 

注意 尽管 相对 于 局 部 访问 ，NUMA 间 链 接 很 快 ， 但 是 冲突 问题 是 不 可 避免 的 。 不 论 链 
接 多 么 快 ， 没 有 NUMA 间 链 接 ， 也 无 法 将 ccNUMA 变 成 UMA, 


8.1.1 首次 访问 方式 分 配 页 面 


利好 在 现在 所 有 ccNUMA 架构 上 初始 化 映射 需求 能 够 以 一 种 方便 的 方式 完成 。 如 果 配 
置 正确 (包括 类 似 于 固态 软件 [“ BIOS”]、 操 作 系 统 和 运行 时 库 等 )， 那 么 它们 支持 内 存 页 
的 首次 接触 策略 : 当 处 理 器 第 一 次 访问 页 面 时 ， 被 映射 到 这 个 处 理 器 的 局 部 区 域 。 仅 分 配 内 
存 是 不 够 的 。 因 此 在 ccNUMA 上 需要 关注 数据 初始 化 代码 (在 C 中 使 用 calloc() 很 可 能 等 
效 )。 作 为 一 个 例子 ， 我 们 再 次 查看 代码 清单 1-1 中 用 并 行 OpenMP 简单 实现 的 向 量 代 码 。 
虽然 不 在 栈 上 分 配 数 组 ， 但 是 我 们 使 用 动态 内 存 ( 堆 )， 稍 后 解释 原因 (为 了 简洁 我 们 省 略 
计时 功能 ): 


double precision, allocatable, dimension(:) :: A, B, C, D 


1 
2 allocate (A(N), B(N), C(N), D(N)) 

3 ! initialization 

4 do i=1,N 

5 B(i) = i; C(i) = mod(i,5); D(i) = mod(i,10) 
6 enddo 

7 eee 

8 do j=1,R 

9 !$OMP PARALLEL DO 

10 do i=1,N 

11 A(i) = B(i) + C(i) * D(i) 

12 enddo 

3 !$OMP END PARALLEL DO 

14 call dummy (A,B,C,D) 

15 enddo 


这 里 我 们 显 式 写 出 使 用 合理 数据 初始 化 数组 B、C 和 D 的 循环 (没有 必要 初始 化 A 这 是 
因为 在 写 之 前 它 不 被 读 )。 如 果 没 有 为 ccNUMA 系统 优化 的 OpenMP 应 用 代码 原型 运行 在 几 
个 不 同 局 部 区 域 上 ， 那 么 当 工作 集 不 能 刚好 放 人 和 人 cache 中 时 ， 将 不 能 获取 单个 LD 上 的 最 大 
性 能 。 这 是 因为 初始 化 循环 被 单一 线程 执行 ， 首 次 写 人 B、C 和 D。 因 此 ， 所 有 属于 数组 的 
内 存 页 面 都 被 映射 到 单一 的 LD 上 。 如 图 8-4 显示 ， 后果 很 明显 : 如 果 工 作 集 大 小 刚好 适合 
cache， 则 扩展 性 很 好 。 但 是 ， 对 于 一 些 大 数组 来 说 ，8 个 线程 性 能 (BRR) 甚至 低 于 
2 个 线程 (一 个 LD) WE ( 虚 方 块 表示 )， 这 是 因为 所 有 线程 都 通过 HT 网 络 访问 LD0 中 的 
内 存 ， 从 而 导致 严重 冲突 的 问题 。 如 上 所 述 ， 可 以 通过 并 行 初始 化 数组 来 避免 这 个 问题 。 代 
码 的 第 4 一 6 行 循 环 可 以 被 如 下 代码 替代 ; 


1 ! initialization 

2 !$OMP PARALLEL DO 

3 do i=1,N 

4 Bll) = 17 CI) = mod(i,5); D(i) = mod (i,10) 
5 enddo 

6 !$OMP END PARALLEL DO 
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这 个 简单 修改 ， 对 于 UMA 系统 来 说 无 用 ， 但 是 对 于 内 存 约束 情形 的 ccNUMA 系统 来 
说 能 有 很 大 提升 OLA 8-4 中 的 圆圈 和 插图 )。 当 然 ， 当 NW 很 大 而 不 能 使 工作 集 放 入 单个 局 
187) ”部 区 域 时 ， 数 据 将 以 不 可 控制 的 方式 “自动 ”地 分 布 式 存放 。 这 种 效果 绝 不 依赖 于 当 数 据 分 


布 是 关键 的 情形 。 


图 8-4 
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N 
在 图 8-3 中 (HP DL585 G5) 含有 4 个 LD 的 ccNUMA 机 器 向 量 性 能 和 扩展 性 ， 这 里 
比较 8 个 线程 ， 页 面 放置 在 LD0 中 (ZAA) 和 首次 访问 的 正确 并 行 ( 虚 圆 圈 )。 单 个 
LD 局 部 访问 的 性 能 数据 在 此 展示 以 便 引 用 ( 虚 方块 )。 每 个 覃 的 两 个 线程 贯穿 始终 。 
cache 内 扩展 性 并 不 受到 不 合适 页 布局 的 影响 。 对 于 内 存 约 束 情况 ， 将 所 有 数据 放 在 单 


个 LD 中 有 严重 后 果 (请 看 插图 ) 


有 时 候 没 有 用 来 并 行 的 循环 ， 初 始 化 数组 并 行 并 不 足够 。 在 图 8-5 左边 的 OpenMP 代码 
中 ,第 8 行 A 的 初始 化 是 通过 READ 语句 在 串 行 区 域 实现 的 。 右 边 代码 通过 并 行 初始 化 A 
纠正 了 这 个 问题 ， 和 随后 访问 的 方式 相同 来 首次 访问 它们 的 数据 。 虽 然 READ 操作 依旧 串 
行 ， 但 是 数据 将 分 布 在 不 同 的 局 部 区 域 。 数 组 B 不 需要 初始 化 ， 但 它 能 够 自动 正确 映射 。 

要 想 首 次 访问 方式 能 够 正确 工作 并 且 获 得 很 好 的 扩展 循环 性 能 ， 则 必须 满足 一 些 条 件 。 


% y A A A y N = 


»N = 5S © 





integer,parameter:: N=1000000 
double precision :: A(N),B(N) 
1SOMP PARALLEL DO 
do i=1,N 
A(i) = 0.d0 
enddo 
!SOMP END PARALLEL DO 


integer,parameter:: N=1000000 
double precision :: A(N),B(N) 


! executed on single LD 


READ (1000) A ! A is mapped now 
! contention problem READ (1000) A 


! SOMP PARALLEL DO !SOMP PARALLEL DO 
do i = 1, N do i = 1, N 
B(i) = func(A(i)) B(i) = func(A(i)) 
enddo enddo 
!SOMP END PARALLEL DO ! OMP END PARALLEL DO 


通过 正确 NUMA 布局 来 优化 。 左 边 : READ 语句 仅 被 单个 线程 执行 ， 将 A 放 在 单个 
局 部 区 域 里 。 右 边 : 并 行 初始 化 得 到 正确 的 不 同 局 部 区 域 的 页 面 分 布 


O 初始 化 的 OpenMP 循环 调度 和 工作 循环 必须 相同 和 可 重复 ， 也 就 是 ， 只 有 一 种 可 能 
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选择 是 具有 固定 大 小 块 组 的 STATIC， 并 且 排 除 任务 的 使 用 。 因 为 OpenMP 标准 没有 
定义 默认 调度 ， 所 以 在 所 有 并 行 循 环 上 显 式 确定 是 不 错 的 做 法 。 当 前 所 有 的 编 详 项 
都 选择 STATIC 作为 默认 调度 。 当 然 ， 使 用 静态 调度 会 给 消除 负载 不 均 的 优化 市 来 一 
些 限 制 。 唯 一 的 简单 选择 是 选择 合适 大 小 的 块 组 ( 尽 可 能 小 ， 但 是 至 少 有 几 个 页 的 大 
小 )。 更 多 关于 ccNUMA 条 件 下 的 动态 调度 的 详细 信息 请 参考 8.3.1 市 。 
口 对 于 有 相同 迭代 次 数 和 相同 并 行 线程 的 连续 并 行 循环 ， 每 个 线程 应 该 获取 迭代 空间 
同样 的 部 分 。OpenMP 3.0 中 保证 这 种 行为 当 且 仅 当 循环 使 用 相同 块 组 大 小 的 STATIC 
调度 (或 者 没有 ) 并 且 绑 定 在 同一 并 行 区 域 里 。 虽 然后 一 种 条 件 往往 不 能 满足 ， 至 少 
无 法 对 程序 中 所 有 循环 做 到 ， 但 是 现在 的 编译 器 生成 的 代码 能 够 保证 循环 迭代 空间 
有 相同 长 度 并 且 OpenMP 调度 总 是 被 相同 方式 分 解 ， 甚 至 在 不 同 循环 区 域 中 。 
口 硬件 必须 能 够 支持 将 内 存 带 宽 扩 展 到 不 同 局 部 区 域 。 当 然 并 不 总 是 这 样 ， 例 如 ， 如 
果 cache 一 致 性 阻塞 产生 NUMA 网 络 冲 突 。 
遗憾 的 是 并 不 总 是 程序 员 考 虑 怎样 和 什么 时 候 首 次 访问 数据 。 在 C/C++ 中 ， 全 局 数据 
(包括 对 象 ) 在 main) 函数 之 前 初始 化 。 如 果 不 能 避免 全 局 ， 适 当 对 全 局 数据 的 局 部 映射 是 
可 能 的 解决 方案 ， 其 中 代码 特征 是 以 允许 的 通信 和 计算 比 衡量 [068]。 关 于 OpenMP 和 C++ 
组 合 导致 的 问题 讨论 可 以 参考 8.4 AF. [C100] 和 [C101]. 
关于 分 配 内 存 和 初始 化 后 的 页 面 如 何 失去 它 的 页 表 项 没有 很 好 的 说 明 。 多 数 情 况 下 ， 
对 处 在 堆 上 的 内 存 能 充分 释放 (Fortran 使 用 DEALLOCATE, C 使 用 free()，C++ 使 用 
delete[])。 这 是 为 什么 上 面 描述 的 向 量 基准 采用 动态 内 存 的 原因 。 如 果 随 后 新 的 内 存 块 被 
分 配 ， 那 么 首次 访问 策略 正常 应 用 。 尽 管 如 此 ， 一些 运行 时 库 优 化 实现 实际 上 并 没有 使 用 
free) 释放 内 存 ， 而 是 添加 一 些 页 面 到 “内 存 池 ”， 从 而 最 后 用 很 小 的 开销 释放 。 为 了 避免 疑 
惑 ， 系 统 文档 应 该 采取 相关 方法 改变 这 种 行为 。 
在 共享 内 存 并 行 代码 中 局 部 性 问题 一 般 是 最 突出 的 。 如 果 独 立 运行 的 进程 和 它们 初始 
化 数据 时 所 在 的 局 部 区 域 保 持 关 联 ， 那 么 它们 将 自动 采取 首次 访问 内 存 布局 策略 。 请 参考 
8.3.2 市 中 可 能 阻碍 局 部 访问 的 影响 。 


8.1.2 通过 其 他 方式 的 局 部 性 访问 


除了 基本 的 首次 访问 初始 化 策略 ， 操 作 系 统 经 和 常会 提供 显 式 页 面 布 局 和 诊断 的 高 级 工 
具 。 这 些 工 具 自 然 很 不 易 有 用。 通常 是 命令 行 工 具 或 者 通过 可 配置 动态 对 象 来 影响 内 存 分 配 和 
首次 访问 行为 而 不 需要 改变 源 代码 。 典 型 功能 包括 : 

口 设置 策略 或 者 首先 项 来 将 内 存 页 映射 到 特定 的 局 部 区 域 而 不 用 考虑 所 分 配 的 进程 或 

者 线程 运行 在 什么 地 方 。 

口 为 跨 局 部 区 域 连续 访问 页 面 的 映射 设置 “循环 ”或 者 随机 策略 。 如 果 共 享 内 存 并 行 
程序 没有 固定 的 访问 模式 〈 例 如 ， 受 到 负载 均衡 的 限制 )， 并 且 无 法 采用 一 致 性 首次 
访问 映射 ， 这 将 使 得 内 存 约束 代码 的 扩展 性 并 行 处 于 低级 别 。 人 参见 8.3.1 节 的 相关 
实例 。 

口 可 能 以 单个 进程 为 基础 ， 诊 断 页 面 在 局 部 性 区 域 上 的 当前 分 布 。 

除了 单独 工具 ， 还 存在 提供 更 好 的 细 粒 度 控 制 页 面 布 局 的 文档 化 API 的 库 。 在 Linux 
OS 中 ，numatools 工具 包 包含 所 有 上 面 描述 的 功能 ， 并 且 还 允许 线程 或 者 进程 关联 工具 (也 
就 是 ， 决 定 线程 或 者 进程 应 该 运行 在 哪 ) 。 详 细 信 息 请 参考 附录 A。 
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8.2 ”案例 分 析 : 稀疏 MVM BY ccNUMA 优化 


在 初始 化 的 时 候 代 码 工 作 集 内 存 页 面 被 映射 到 单个 局 部 区 域 将 导致 冲突 问题 ， 所 以 很 显 
IRTE ccNUMA 系统 上 OpenMP 并 行 化 的 稀疏 MVM 具有 很 差 的 扩展 性 (请 参考 图 7-7 )。 通 
过 编写 采取 首次 访问 映射 策略 的 并 行 初始 化 循环 ， 扩 展 性 得 到 很 大 提高 。 既 然 对 于 JDS 策 
略 一 样 ， 所 以 这 里 我 们 仪 探讨 CRS。 数 组 C., val, col idx, row ptr 和 B 必须 并 行 初始 化 : 


LLL LLLA A 
LLL LLL ELL LL 


J CRS-AMD Opteron 
bJDS-AMD Opteron 
CRS-SGI Altix 
dJDS-SGI Altix 

J CRS-Intel Xeon/Core2 
dJDS-Intel Xeon/Core2 

A 2 





Ñ 
À 
À 
N 


| 
| 


2 4 
SAY / 节点 


图 8-6 比较 CRS (阴影 条 状 ) AMIE IDS (LAR) 在 三 个 不 同 架 构 上 的 ccNUMA 优化 的 
OpenMP 34:47 4k Frit MVM 性 能 和 强 扩展 性 。 图 7-7 是 没有 合理 布局 的 性 能 。 不 同 扩 
展 基 已 经 被 分 开 ( 主 框图 是 单 槽 或 者 单个 LD， 插图 是 单 核 ) 


1! !SOMP PARALLEL DO 
2 do i=1,N, 


3 row ptr(i) = 0 ; C(i) = 0.d0 ; B(i) = 0.d0 
4 enddo 

s !$OMP END PARALLEL DO 

6 .... ! preset row_ptr array 


7 !$OMP PARALLEL DO PRIVATE (start,end, j) 
8 do i=1,N, 


9 start = row_ptr(i) ; end = row_ptr(i+l) 
10 do j=start,end-1 

11 val(j) = 0.d0 ; col_idx(j) = 0 

12 enddo 

13 enddo 


14 !SOMP END PARALLEL DO 

B ANA) tA 1b te St EY TE REEE E BR SR HE ET Fe BT UB. h FAA FERE 
所 以 在 实践 中 对 RHS 向 量 来 说 很 难 采取 合适 的 布局 策略 。 

图 8-6 性 能 数据 和 图 7-7 采 用 了 同一 架构 和 MVM 代码， 只 不 过 是 加 入 了 合适 的 
ccNUMA 布局 。 正 如 所 期 竺 的， 对 于 UMA 平台 来 说 ， 可 扩展 性 是 没什么 变化 的 ， 对 于 
ccNUMA 系统 上 的 双 线 程 来 说 也 如 此 (请 参考 插图 )。 原 因 是 两 个 架构 都 有 UMA 类 型 的 两 
个 处 理 右 局 部 区 域 。 对 于 四 个 线程 以 及 以 上 和 情况， 局 部 性 优化 将 产生 巨大 的 性 能 提升 。 特 别 
对 于 CRS， 当 线程 从 2n 增加 到 2(n+1)， 它 的 扩展 性 近 于 完美 值 ( 主 框图 中 的 扩展 基线 分 别 
是 局 部 区 域 或 者 权 )。JDS 也 能 从 优化 中 获取 性 能 提升 ， 但 是 当 线 程 数 很 大 时 落后 于 CRS. 


构 


w 
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这 是 因为 JDS 的 置换 映射 使 其 很 难 放置 更 大 部 分 的 RHS 向 量 到 正确 的 局 部 区 域 ， 因 此 导致 
了 NUMA 通信 和 量 增 加 。 


8.3 页面 布局 缺陷 


我 们 已 经 证 明 对 于 ccNUMA 架构 包括 广泛 使 用 的 双 覃 集群 节点 来 说 数据 布局 是 第 一 重 
要 的 。 原 则 上 ，ccNUMA 对 内 存 约束 的 代码 提供 了 优秀 的 扩展 性 ， 但 是 UMA 系统 更 容易 控 
制 并 且 不 需要 为 局 部 性 访问 提供 额外 的 代码 优化 。 正 如 所 期 望 的 一 样 ，ccNUMA 设计 在 性 
价 比 很 高 的 双 槽 配置 HPC 市 场 盛 行 。 但 是 需要 强调 的 是 8.1 节 介 绍 的 优化 布局 并 不 总 是 适 
用 的 ， 例 如 ， 当 动态 调度 不 可 避免 时 (请 参考 8.3.1 节 )。 此 外 ， 可 能 会 得 到 内 存 布局 问题 仅 
限制 于 共享 内 存 编程 的 结论 ; 而 实际 并 不 是 如 此 ， 进 一 步 理 解 请 参考 8.3.2 节 。 


8.3.1 非 NUMA 友好 的 OpenMP 调度 


正如 6.1.3 节 和 6.1.7 节 介 绍 ， 动 态 或 者 指导 性 调度 和 OpenMP task 结构 在 一 些 负载 均 
衡 很 差 的 情况 下 ， 如 果 频 繁 为 线程 分 配 任务 的 额外 开销 可 以 忽略 的 话 ， 相 对 于 静态 工作 分 
布 来 说 更 好 。 男 一 方面 ， 如 果 线 程 组 在 不 同 局 部 区 域 上 时 ， 任 何 形式 的 动态 调度 (包括 分 任 
务 ) 将 导致 扩展 问题 。 对 线程 的 任务 分 配 是 不 可 预测 的 ， 甚 至 每 次 运行 都 不 同 ， 这 将 排除 
“优化 ”页 面 布 局 策略 。 

在 这 样 情形 下 同时 丢掉 并 行 首 次 访问 策略 没有 解决 方案 ， 这 是 因为 性 能 将 受制 于 单个 内 
存 接口 。 为 了 获取 所 获得 最 大 带宽 的 大 部 分 ， 最 好 在 局 部 区 域 之 间 以 循环 方式 部 署 工作 集 的 
内 存 页 并 且 和 硕 望 静态 访问 分 布 。 向 量 三 元 组 仍然 作为 了 解 随机 页 面 访 问 作 用 的 方便 工具 。 我 
们 通过 强制 使 用 具有 页 面 大 小 的 块 组 的 静态 调度 来 修改 初始 化 循环 (假设 4KB 的 页 面 )。 


t $ initialization 
2 !SOMP PARALLEL DO SCHEDULE (STATIC, 512) 


do i=1,N 
A(i) = 0; Bti) = i; Cli) = mod(i,5); Di) = mod (i, 10) 


3 
4 

5 enddo 
6 !$OMP END PARALLEL DO 
7 


8 do j=1,R 

9 !$OMP PARALLEL DO SCHEDULE (RUNTIME) 
10 do i=1,N 

11 A(i) = B(i) + C(i) * D(i) 

12 enddo 

3 !SOMP END PARALLEL DO 

14 call dummy (A,B,C,D) 

15 enddo 


通过 设置 OMP_SCHEDULE 环境 变量 可 以 测试 不 同 循环 调度 策略 。 图 8-7 显示 当 块 
组 大 小 为 c 时 ， 静 态 和 动态 调度 的 并 行 性 能 对 比 ， 使 用 的 是 来 自 图 8-3 W 8 AR 4 
ccNUMA 系统 。 当 c 很 大 时 ， 也 就 是 单个 块 组 占据 几 个 内 存 页 ， 性 能 近似 于 随机 访问 所 有 
LD 的 情况 ， 而 与 采取 什么 调度 策略 无 关 。 在 这 种 情形 下 ， 一 个 线程 所 需要 的 75% 页 面 位 于 
远程 区 域 。 尽 管 这 种 不 定 模 式 能 够 获得 一 定 程 度 的 并 行 (相对 于 虚线 显示 的 纯 串 行 初始 化 情 
况 )， 但 是 相对 于 理想 情况 ( 实 线 ) 仍然 有 几乎 50% 的 性 能 损失 。 当 c = 512 时 需要 注意 : 使 
用 静态 调度 ， 三 元 组 循环 访问 模式 和 初始 化 循环 的 内 存 布局 策略 相 匹 配 ， 使 得 ( 绝 大 多 数 ) 
局 部 性 访问 每 个 LD。 与 最 佳 可 能 结果 的 剩余 差别 应 该 归 因 于 无 法 和 页 边界 对 齐 的 数组 ， 这 ， 
将 导致 一 些 不 确定 性 。 注 意 操作 系统 和 编译 器 经 常 为 可 配置 边界 (候选 者 有 SIMD 数据 类 型 
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长 度 、 高 速 缓冲 行 和 内 存 页 面 等 ) 提供 对 齐 数据 结构 的 手段 。 但 是 需要 注意 以 避免 强 对 齐 数 


据 结构 的 走样 。 


性 能 [MFlop/s] 


1 4 16 64 





256 1024 4096 16384 


块 大 小 c[DP Word] 
图 8-7 8 向 量 三 元 组 性 能 对 比 。 在 四 个 LD 的 ccNUMA 系统 上 (请 参考 图 8-3) 8 线程 的 静态 
调度 和 动态 调度 。 页 面 布局 特意 采取 的 是 循环 方式 。 显 示 最 佳 并 行 布局 和 静态 调度 的 


LDO 布局 的 性 能 以 便 引 用 


尽管 与 NUMA 作用 不 直接 相关 ， 但 分 析 小 规模 块 组 的 情形 还 是 有 指导 意义 的 。 和 静态 
调度 相 比 动态 调度 所 引起 的 额外 开销 导致 很 大 差距 。 如 果 c 小 于 cache 行 长 度 (64 字 节 )， 
cache 失效 时 ， 虽 然 仅 需要 一 小 部 分 ， 但 是 还 需要 传输 整个 cache ÍT, AERE c< 64 的 特 
有 行为 。 当 c=16 时 下 降 的 解释 以 及 性 能 逐渐 增长 直到 页 面 大 小 时 的 解释 留 作 练 习 (请 看 本 


章 结 尾 习 题 )。 


总 之 ， 如 果 排 除 纯 静态 调度 〈 不 含 块 大 小 )， 循 环 布局 策略 至 少 可 以 利用 一 些 并 行 性 。 
如 果 可 能 ， 含 有 合适 大 小 块 组 的 静态 调度 应 该 作为 OpenMP 工作 共享 循环 调度 方案 以 避免 


调度 市 来 的 过 多 开销 。 


8.3.2 文件 系统 cache 


尽管 遵循 所 有 关于 关联 和 页 面 布 局 注意 
事项 ， 不 但 OpenMP 程序 仍然 存在 可 扩展 可 
能 ， 而 且 独 立 运 行进 程 的 整个 系统 性 能 还 是 
低 于 预期 。 硬 盘 IO 操作 会 使 得 操作 系统 建 
立 存储 最 近 读 或 写 的 文件 数据 的 高 速 缓冲 区 
以 便 复 用 。 高 速 缓冲 区 的 大 小 和 布局 很 大 程 
度 上 与 系统 相关 ， 并 且 可 以 配置 ， 但 是 默认 
设置 适用 于 大 多 数 情 况 ， 虽 然 可 以 利于 实行 
好 的 IO 性 能 ， 但 是 对 于 ccNUMA 局 部 性 来 
说 不 利 。 

请 参看 图 8-8 的 例子 :: 在 LDO 上 运行 
的 一 个 线程 或 者 进程 写 一 个 大 文件 到 硬盘 ， 
并 且 操 作 系 统 为 文件 系统 高 速 缓 冲 区 预 留 





图 8-8 文件 系统 cache 能 够 阻止 局 部 性 访问 页 面 
被 放置 在 局 部 区 域 ， 这 样 将 导致 非 局 部 访问 以 及 冲 
突 问题 。 这 里 显示 的 是 局 部 区 域 0， 在 这 个 区 域 上 
FS 高 速 缓存 使 用 局 部 内 存 的 绝 大 数 空 间 。 被 核 所 
分 配 和 初始 化 的 页 面 在 LDO 的 页 面 映射 到 LD1 
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(“LDO 数据 ” )， 但 是 不 是 所 有 页 面 都 刚好 放 和 人 已 经 有 高 速 缓冲 区 的 LDO 空间 。 默 认 情 况 下 ， 
许多 系统 将 多 余 页 面 映射 到 男 一 个 局 部 区 域 ， 以 便 从 程序 员 和 角度 来 说 首次 访问 策略 是 正确 
的 ， 然 而 LDO 数据 的 非 局 部 访问 以 及 LD1 内 存 接口 冲突 仍然 会 出 现 。 

一 个 简单 试验 证 明了 这 种 效果 。 我 们 比较 一 个 UMA 系统 (图 4-4 中 双核 双 权 的 Intel 
Xeon 5160 ) 和 一 个 两 个 LD 的 ccNUMA 节点 (图 4-5 中 双核 双 槽 AMD Opteron)， 两 者 都 是 
4G 内 存 。 在 两 个 系统 上 的 一 个 循环 里 我 们 执行 如 下 步骤 : 

1) 向 硬盘 写 人 “ 脏 ” 数 据 并 使 得 所 有 高 速 缓冲 区 不 合法 。 这 一 步 很 大 程度 依赖 系统 ; 
通常 存在 一 个 管理 员 执 行 的 程序 来 实现 ?， 或 者 供应 商 提 供 的 库 为 来 提供 选择 。 

2) 向 局 部 硬盘 写 人 大 小 为 $ 的 文件 。 文 件 最 大 值 等 于 内 存 大 小 。S 应 该 从 很 小 的 值 开 
始 ， 并 且 在 循环 的 每 次 迭代 后 增加 直到 等 于 系统 的 内 存 。 

3 ) 同步 高 速 缓 冲 区 以 便 在 后 台 没 有 刷新 操作 (但 是 高 速 缓冲 区 还 是 填 满 的 )。 这 通常 使 
用 标准 UNIX 的 sync 命令 完成 。 

4) 使 用 合适 的 关联 机 制 (请 参考 附录 A) 在 每 个 核 上 运行 相同 的 向 量 三 元 组 基准 。 所 
有 工作 集 的 大 小 应 该 等 于 节点 内 存 一 半 大 小 。 整 体 性 能 是 以 MFlop/s 和 8 大 小 (这 里 等 于 高 
速 缓冲 区 大 小 ) 的 比值 为 单位 。 

结果 显示 在 图 8-9 中 。 在 UMA 节点 上 ， 因 为 没有 局 部 性 概念 ， 所 以 高 速 缓冲 区 没什么 
影响 。 为 一 方面 ，ccNUMA 系统 显示 了 随 着 大 小 增加 而 出 现 的 很 强 的 性 能 下 降 ， 并 且 当 LD 
被 高 速 缓冲 区 填 满 时 (大约 2GB)， 性 能 降 到 最 低 : 发 生 于 所 有 在 LDO 中 被 三 元 组 循环 初始 
化 的 内 存 页 面 被 映射 到 LD1。 如 果 文 件 变 得 更 大 ， 则 性 能 又 上 升 ， 这 是 因为 单个 局 部 区 域 太 
小 其 至 连 高 速 缓冲 区 都 放 不 下 。 如 果 文 件 大 小 等 于 内 存 大 小 (4GB)， 那 么 并 行 首 次 访问 策 
略 按照 需要 更 新 高 速 缓 冲 区 页 面 并 且 像 正常 方式 一 样 工 作 。 
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[i] Ht HERE [MFlop/s] 
S 
S 


0 一 口 ccNUMA (Opteron 双核 2 插 槽 ) 


100 4—a UMA (Core2 双核 2 iif) 


4000 


0 1000 2000 3000 
在 运行 基准 测试 之 前 FS 高 速 缓冲 区 大 小 5 


图 8-9” 当 运行 四 个 并 发 向 量 三 元 组 程序 时 ,在 ccNUMA 和 UMA 系统 上 大 文件 缓冲 区 对 性 能 
影响 对 比 〈 都 有 两 个 槽 和 四 个 核 以 及 4GB 的 RAM)。 缓 冲 区 被 单 核 填 满 。 细 节 请 参考 
文章 (Michael Meier 的 基准 数据 ) 


© 在 当前 Linux OS 上 ， 这 一 步骤 通过 执行 echol>/proc/sys/vm/drop_caches 命令 来 完成 。SGI Altix 系统 提供 了 
befree 命令 行 ， 该 命令 行 提 供 了 类 似 的 功能 。 
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从 这 个 实验 中 我 们 可 以 学 到 许多 经 验 。 最 重要 的 是 它 证 明了 在 ccNUMA 上 的 局 部 性 问 
题 既 不 受 OpenMP (或 者 一 般 的 共享 内 存 并 行 ) 程序 限制 ， 也 不 是 通过 修正 的 首次 访问 策略 
来 获得 “最 佳 ” 扩 展 性 。 高 速 缓冲 区 甚至 可 能 是 上 次 其 他 用 户 运行 工作 留 下 来 的 。 理 想 情 况 
下 ， 当 一 项 工作 结束 时 ，HPC 中 应 该 存在 一 种 方式 能 够 自动 的 “更 新 ”高 速 缓冲 区 以 便 为 
下 一 个 用 户 留 下 “干净 ”机 器 。 万 不 得 已 的 情况 下 ， 如 果 这 里 没有 用 户 级 的 工具 ， 并 且 系 统 
管理 员 没 有 对 这 个 问题 给 予 应 有 的 重视 ,那么 没有 权限 的 普通 用 户 可 以 执行 分 配 和 初始 化 所 
有 内 存 的 “扫描 ”代码 。 


double precision, allocatable, dimension(:) :: A 
double precision :: tmp 
integer (kind=8) :: i 


integer (kind=8), parameter :: SIZE = SIZE OF MEMORY IN DOUBLES 
allocate A(SIZE) 
tmp=0 . dO 
! touch all pages 
!SOMP PARALLEL DO 
9 do i=l, SIZE 
10 A(i) = SQRT (DBLE (i) ) ! dummy values 
11 enddo 
12 !SOMP END PARALLEL DO 
3 ! actually use the result 
i4 !SOMP PARALLEL DO 
15 do i=l, SIZE 
16 tmp = tmp + A(i)*A(1) 
17 enddo 
18 !SOMP END PARALLEL DO 
19 print *,tmp 


这 个 代码 可 以 作为 用 户 应 用 的 一 部 分 来 更 新 被 运行 程序 IO 填充 的 高 速 缓冲 区 (SE 
写 )。 第 二 个 循环 的 唯一 目的 是 阻止 编译 器 优化 ， 这 是 因为 它 发 现 A 从 来 没有 被 使 用 。 并 行 
化 循环 当然 是 可 选 的 但 是 可 以 加 速 整个 进程 。 注 意 ， 由 于 依赖 于 内 存 实际 大 小 和 “ 脏 ” 文 件 
高 速 缓冲 块 大 小 ， 这 个 过 程 可 能 花费 大 量 的 时 间 : 最 坏 的 情况 下 ， 几 乎 所 有 的 主 存 不 得 不 写 
回 硬盘 。 

高 速 缓冲 区 和 相应 的 局 部 性 问题 是 在 ccNUMA 节点 的 集群 上 运行 并 行程 序 的 性 能 倾向 
于 波动 的 一 个 原因 。 如 果 很 多 节点 参与 ， 则 仅 有 一 个 节点 的 大 高 速 缓冲 区 可 能 阻塞 整个 并 行 
应 用 程序 的 性 能 。 采 取 给 定 环 境 的 所 有 可 能 的 选项 来 构建 环境 以 便 减 少 高 速 缓冲 区 的 影响 是 
系统 任务 管理 员 的 任务 。 例 如 ， 一 些 系统 允许 配置 哪些 绥 冲 页 面 保 持 ， 赋 予 局 部 内 存 高 优先 
级 和 按照 需要 更 新 缓冲 区 。 


8.4 C++ 中 的 ccNUMA 问题 


如 上 所 示 ， 只 要 基本 的 内 存 访问 模式 被 识别 ， 那 么 内 存 访问 的 局 部 性 经 常 采 用 像 
Fortran 或 者 C 这 样 的 语言 来 实现 。 然 而 由 于 CH 面向 对 象 的 特点 ， 它 完全 又 是 男 一 回 事 
[C100,C101]。 在 这 个 小 节 中 ， 我 们 想 指出 在 ccNUMA 系统 上 使 用 OpenMP 并 行 C++ 代码 
的 常见 缺陷 。 


8.4.1 对象 数 组 


当 使 用 new[] 操作 符 为 类 型 为 D 的 对 象 分 配 数 组 时 ， 最 基本 的 问题 会 出 现 。 为 了 简单 起 
见 ， 我 们 选择 D 作为 含有 必要 重 载 操 作 符 的 double 包装 类 使 它 更 像 一 个 基本 类 型 : 


o uyu A A à ù N = 
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ı class D I 

2 double d; 

3 public: 

4 D (double d=0.0) throw() : d(_d) {} 

5 ~D() throw() {} 

6 inline D& operator=(double _d) throw() {d=_d; return «this; } 
7 friend D operator+(const D&, const D&) throw(); 

8 friend D operator» (const D&, const D&) throw(); 


10}; 

假设 所 有 操作 符 都 被 正确 实现 ，D 和 double 的 唯一 区 别 是 类 型 D 的 对 象 实例 化 导致 立 
即 初 始 化 ， 而 double 不 同 ， 也 就 是 ， 在 a=new DIN] 中 ， 内 存 分 配 如 常 ， 但 是 每 个 数组 成 员 
的 默认 构造 函数 被 调用 。 因 为 new XF NUMA 没有 任何 了 解 ， 所 以 这 些 调 用 是 被 执行 new 
的 线程 完成 。 因 此 所 有 数据 均 终 止 于 线程 的 局 部 内 存 中 。 这 个 方式 的 有 一 个 问题 是 默认 构造 
曙 数 并 不 访问 数据 ， 但 是 这 并 不 是 必须 的 或 者 需要 的 。 

程序 员 应 该 首先 将 数组 数据 所 使 用 的 内 存 页 面 映射 到 正确 的 节点 上 以 便 每 个 线程 能 够 
局 部 访问 ， 然 后 调用 构造 明 数 初始 化 对 象 。 这 将 使 用 new 布局 来 完成 ， 这 时 创建 的 对 象 数 
量 以 及 实例 化 的 精确 地 址 ( 基 址 ) 被 确定 。new 布局 并 不 调用 构造 函数。 使 用 布局 new 的 
一 个 简单 方式 就 是 重 载 D::operator new[]。 这 个 操作 符 单独 负责 分 配 “ 原 始 ” 内 存 。 一 个 
重 载 版 本 除了 内 存 分 配 ， 还 能 够 为 好 的 NUMA 布局 平行 初始 化 页 面 (我 们 忽略 失败 时 抛 出 
std::bad alloc 的 需要 ): 


1 void» D::operator new([] (size_t n) i 

2 char *p = new char[n]; // allocate 

3 size_t 1; 43 

4 #pragma omp parallel for private(j) schedule(runtime) 
5 for(i=0; i<n; i += sizeof (D)) 

6 for(j=0; j<sizeof(D); ++j) 

7 pli+j] = 0; 

8 return p; 


9 } 


u void D::operator delete[] (void* p) throw() { 
12 delete [] static_cast<char«>p; 
13 } 


使 用 布局 new, C++ 运行 时 能 够 自动 在 正确 的 位 置 构建 数组 中 的 所 有 对 象 。 注 意 ，C++ 
运行 时 通常 需要 比 所 有 对 象 大 小 累加 和 多 一 些 空间 来 为 实际 数据 存放 管理 信息 。 因 为 这 部 分 
数据 相对 于 NUMA 相关 数组 来 说 很 小 ， 所 以 没有 什么 显著 影响 。 

像 上 面 D 类 一 样 简单 地 重 载 操作 符 new[]。 但 是 动态 成 员 是 有 问题 的 ， 这 是 因为 它们 的 
NUMA 局 部 性 不 能 够 很 好 地 受 控制 : 


class E { 


l 

2 size_t s; 

3 std::vector<double> +v; 

4 public: 

5 E(size_t _s=100) : s(_s), v(new std: :vector<double>(s)) {} 
6 ~E() { delete [] v; } 

7 oe 

8 F3 


E HHE PR eae E::s 和 E::v， 并 且 它 们 将 是 在 E 数组 构造 时 ， 通 过 重 载 E::operator 


new[] 来 服从 于 NUMA 布局 的 仅 有 数据 。E::v 的 内 存 地 址 不 被 这 种 机 制 控制 事实 上 ， 在 


STL 内 部 使 用 double() 对 象 的 拷贝 时 ，std::vector<double> 被 预先 设置 。 这 是 在 E::operator 
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new[] 执行 后 发 生 在 C++ 运行 时 里 的 。 所 有 内 存 被 映射 到 一 个 局 部 区 域 。 
如 果 坚 持 使 用 new 构造 数组 对 象 ， 那么 当 使 用 标准 C++ 和 STL 结构 时 ， 这 种 情形 几 
乎 不 可 能 避免 。 最 好 的 建议 是 在 循环 中 显 式 调用 对 象 构造 响 数 ,并且 使 用 一 个 仅 存 储 指 针 的 
PEAR: 
std: :vector<E*> v_E (n); 


1 
2 
3 #pragma omp parallel for schedule (runtime) 
4 for (size_t i=0; i<v_E.size(); ++i) { 

5 v_E[i] = new E(100); 
6 } 


既然 类 构造 函数 由 不 同 线程 并 发 调度 ,那么 肯定 是 线程 安全 的 。 


8.4.2 ”标准 模板 库 


前 面 展示 的 C 风格 数组 的 操作 对 于 C++ 来 说 是 不 行 的 ; STL 的 std::vector<> 容器 更 安 
全 并 且 更 方便 ， 但 是 关于 ccNUMA 页 面 布局 也 有 自己 的 问题 。 即 使 对 于 像 double 这 样 有 
默认 构造 函数 的 简单 数据 类 型 ， 布 局 问题 仍然 存在 ， 例 如 ，std::vector<>(int) 中 对 象 所 分 配 
的 内 存 是 使 用 std::uninitialized_fill() 并 用 value_type) 副本 来 填充 。 专 门 设 计 一 个 能 够 适应 
NUMA 的 容器 类 会 允许 更 多 的 优化 手段 ， 但 是 STL 定义 了 一 个 allcators 自 定义 抽象 层 ， 它 
能 够 高 效 地 对 容器 内 存 管 理 底 层 的 细节 进行 封装 。 通 过 使 用 它们 ， 很 多 使 用 std::vector<> 的 
程序 只 需 少 量 修改 就 能 保证 正确 NUMA 布局 。 

STL 容器 有 一 个 可 以 设置 使 用 何 种 分 配器 类 的 可 选 模板 参数 [C102, C103]。 默 认 情 形 是 
std::allocator<T>。 一 个 分 配器 类 将 提供 这 些 方 法 (类 的 命名 空间 略 去 ): 


| pointer allocate(size_type, const void *=0); 
2 void deallocate (pointer, size type); 


这 里 size type Æ size t, pointer 是 T*。allocate() 方 法 被 容器 构造 函数 调用 来 像 
operator new[] 一 样 为 数组 对 象 构建 内 存 。 然 而 ， 因 为 所 有 相关 补充 信息 都 存放 在 额外 的 
成 员 变 量 中 ， 所 以 分 配 的 内 存 仅 能 够 匹配 容器 内 容 所 需 空间 ， 至 少 在 初始 化 构建 中 (请 参 
考 下 面 )。allocate() 的 第 二 个 参数 能 够 为 分 配器 提供 额外 信息 ， 但 是 它 的 语义 不 是 标准 的 。 
deallocate() 负责 释放 内 存 。 

最 简单 的 适应 NUMA 的 分 配器 应 该 能 够 做 到 allocate) 不 仅 能 够 分 配 内 存 而 且 能 够 并 行 
的 初始 化 。 作 为 参考 ， 代 码 清单 8-1 显示 了 一 个 简单 的 、NUMA 友好 的 分 配器 代码 ， 这 里 
使 用 标准 malloc() 来 分 配 内 存 。 在 第 19 行 ，OpenMP API 函数 omp in parallel() 用 来 决定 
分 配 需 是 否 被 并 行 区 域 调 用 。 如 果 是 ， 初 始 化 循环 将 被 跳 过 。 使 用 这 个 模板 ，std::vector<> 
对 象 被 建立 时 ， 第 二 个 模板 参数 都 要 被 确定 ， 


| vector<double, NUMA_Allocator<double> > v(length); 


代码 清单 8-1 一 个 NUMA 分 配器 模板 。 实 现在 某 种 程度 上 依据 C++ 标准 需求 进行 了 简化 


i template <class T> class NUMA_Allocator | 
2 public: 

typedef T* pointer; 

typedef const T* const_pointer; 

typedef T& reference; 

typedef const T& const_reference; 
typedef size_t size_type; 

typedef T value_type; 
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在 内 存 分 配 之 后 所 做 之 事 和 数组 对 象 很 相似 ， 也 有 同样 的 限制 : 分 配器 的 construct() 


NUMA_Allocator() { } 
NUMA_Allocator(const NUMA_Allocatoré& _r) { } 
~NUMA_Allocator() { } 


// allocate raw memory including page placement 
pointer allocate (size type numObjects, 
const void *xlocalityHint=0) ( 
size_type len = numObjects * sizeof (value_type); 
char *p = static_cast<char*«>(std::malloc(len) ); 
if(!omp_in_parallel()) { 


#pragma omp parallel for schedule (runtime) private (ofs) 


for(size_type i=0; i<len; it+=sizeof(value_type)) { 
for(size_type j=0; j<sizeof (value_type); ++]) i 
pli+j]=0; 
} 
} 
return static_cast<pointer> (m); 


} 


// free raw memory 

void deallocate (pointer ptrToMemory, size_type numObjects) 
std:: free (ptrToMemory) ; 

} 


// construct object at given address 

void construct (pointer p, const value_typeé x) | 
new(p) value_type (x) ; 

} 


// destroy object at given address 
void destroy(pointer p) { 

p-> value_type () ; 
} 


private: 


void operator= (const NUMA_Allocatoré&) {} 
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方法 被 每 个 对 象 调用 ， 并且 使 用 new 布局 策略 在 正确 的 地 址 构建 每 个 对 象 (36 行 )。 在 销 
毁 对 象 时 ， 每 个 对 象 的 析 构 函数 通过 第 41 行 的 destroy) 方法 显 式 调 用 ( 极 少 的 情形 下 是 
必需 的 )。 注 意 容 器 构造 和 析 构 不 仅 是 construct() 和 destroy() 函数 调用 的 地 方 ， 并 且 还 有 
很 多 立即 消除 NUMA 局 部 性 的 方法 。 例 如 ， 根 据 容器 的 大 小 相 比 于 容量 的 概念 ， 在 一 个 
“ 满 ” 容 右上 调用 std::vector<>::push back() 将 导致 重新 分 配 所 有 内 存 ， 同 时 增加 空间 ， 然 
后 将 原来 的 对 象 复制 到 新 的 位 置 。NUMA 分 配器 将 执行 首次 访问 布局 策略 ， 对 于 使 用 容器 
新 的 容量 而 不 是 对 于 容器 大 小 来 说 如 此 。 因 此 ， 布 局 几乎 是 次 优 的 。 程 序 员 需要 牢记 并 不 
是 std::vector<> 的 所 有 功能 都 适合 使 用 ccNUMA 平台 。 我 们 这 里 将 不 介绍 其 他 STL 容器 
(deque, list, map, set 等 )。 

顺便 提 一 句 ， 具 有 相同 类 型 、 符 合 标准 分 配器 的 对 象 必须 总 是 会 比较 是 否 相 等 [C102]: 


Do “va uv N = 


template <class T> 
inline bool operator== (const NUMA_Allocator<T>&, 


const NUMA_Allocator<T>&) { return true; } 


template <class T> 
inline bool operator!=(const NUMA_Allocator<T>6&, 


const NUMA_Allocator<T>&) { return false; } 


这 将 导致 分 配器 对 象 必然 是 无 状态 的 ， 同 时 排除 了 一 些 可 以 想到 的 优化 策略 。 必 须 提 供 
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T=void 的 模板 特 化 (这 里 没有 显示 )。 在 文献 总 会 探讨 这 种 情况 以 及 其 他 的 特性 。 不 使 用 简 
单 malloc() 而 使 用 更 复杂 方法 的 策略 当然 存在 。 


总 之 ， 这 里 展示 的 方法 有 助 于 更 改 已 有 的 C++ 程序 ， 使 其 适应 ccNUMA 而 没有 太 多 困 


难 。 当 然 新 设计 的 代码 应 该 开始 就 使 用 ccNUMA 的 并 行 化 。 
习题 


8.1 


8.2 


8.3 


8.4 


8.5 


动态 调度 和 cceNUMA。 当 一 个 内 存 约 束 、OpenMP 并 行 代码 运行 在 ccNUMA 系统 的 所 有 槽 上 时 ， 
应 当 使 用 静态 调度 和 并 行 的 初始 化 数据 以 保证 内 存 访问 绝 大 多 数 都 是 局 部 的 。 我 们 想 分 析 如 果 静 
态 调度 不 作为 选择 ， 例 如 为 了 负载 均衡 的 原因 ， 将 会 有 什么 样 情形 。 

对 于 有 两 个 局 部 区 域 的 系统 ， 计 算 内 存 约束 并 行 循环 的 动态 调度 时 期 望 的 性 能 有 影响。 为 了 简单 起 
见 ， 假 设 每 个 LD 上 只 运行 一 个 线程 ( 核 )。 这 个 线程 能 够 以 性 能 p 占 满 局 部 或 者 远程 内 存 总 线 。 
LD 间 的 网 络 应 该 无 限 快 ， 也 就 是 ， 在 LD 间 的 链接 上 非 局 部 传输 没有 开销 并 且 没 有 冲突 影响 。 
进一步 假设 所 有 页 面 都 是 同样 地 分 布 在 整个 系统 上 并 有 目 动 态 调度 是 随机 的 (也 就 是 ， 每 个 线程 以 
一 种 等 概率 的 随机 方式 访问 所 有 LD)。 最 后 ,假设 块 组 足够 大 以 便 对 硬件 预 取 或 者 cache 行 部 分 


使 用 没有 坏 的 影响 。 
静态 调度 和 最 佳 负 和 载 均 衡 的 代码 性 能 是 2p。 在 动态 调度 下 期 望 的 性 能 是 多 少 (也 是 最 佳 负载 均 
衡 ) ? 


令 人 遗憾 的 块 组 大 小 。 当 块 组 大 小 在 16 ~ 256 之 间 时 ， 是 什么 原因 造成 并 行 向 量 三 元 组 在 四 个 
LD 的 ccNUMA #148 ( 见 图 8-7) 上 性 能 下 降 ? 提示 : 内 存 页 作用 很 关键 。 

加 速 “小 ”作业 。 如 果 一 个 ccNUMA 系统 利用 率 很 低 ， 例 如 ， 如 果 这 里 线程 数量 少 于 局 部 区 域 ， 
并 且 它 们 都 执行 (内存 约束 ) 人 代码， 那么 首次 访问 策略 仍然 是 最 好 的 页 面 布局 策略 吗 ? 
ZAER- 向 量 乘 法 。 使 用 OpenMP 并 行 化 一 个 三 角 和 矩阵 向 量 乘 法 : 

1 do r=1,N 

2 do c=l1,r 

3 Y(T) = y(z) + ater] = xte) 


4 enddo 
5 enddo 


这 里 核心 的 并 行 性 能 问题 是 什么 ? 一 般 如 何 解决 ， 并 且 对 于 ccNUMA 系统 有 什么 需要 特殊 注意 
的 ?你 可 以 忽略 标准 的 扩展 优化 (循环 展开 、 块 化 )。 

ER NUMA 页 面 布 局 。 在 8.4.1 节 中 ， 我 们 通过 重 载 D::operator new[] A D 类 型 的 数组 对 象 强制 
使 用 NUMA 布局 。 在 适应 NUMA 的 分 配器 类 中 也 有 类 似 的 事情 〈 见 代码 清单 8-1 )。 为 什么 我 们 
使 用 笠 套 循环 初始 化 而 非 站 上 的 单一 循环 ? 
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Introduction to High Performance Computing for Scientists and Engineers 


使 用 MPI 进行 分 布 式 存储 并 行内 存 编 程 





自从 并 行 计算 机 进入 高 性 能 计算 市 场 以 来 ,关于 什么 编程 模型 才 是 最 适合 并 行 机 的 讨论 
一 直 十 分 激烈 。 显 式 地 使 用 消息 传递 (Message Passing，MP)， 即 进程 间 通 信 ， 无 疑 是 既 乏 
味 又 复杂 而 同时 也 最 灵活 的 并 行 化 方法 。 并 行 机 生产 商 意识 到 了 市 场 对 于 高 效 消息 传递 设备 
的 需求 ， 因 此 随机 器 提供 了 专门 的 不 可 移植 库 ， 这 种 情况 一 直 延 续 到 20 世纪 90 年 代 。 在 那 
时 ， 需 要 制定 一 个 联合 标准 使 得 科研 人 员 能 够 很 轻松 地 编写 出 可 以 跨 平 台 的 并 行程 序 成 为 共 
识 ，MPI ( Message Passing Interface ) 消息 传递 接口 因此 应 运 而 生 。 到 目前 为 止 ，MPI 
标准 已 经 有 过 几 次 扩展 ， 一 些 免费 和 商用 的 MPI 实现 [W125,W126,W127] 也 均 支 持 它 。 除 
了 包含 通信 程序 外 ，MPI 也 包含 有 效 的 平行 IO 工具 (前 提 是 底层 硬件 支持 )。 现 在 ， 在 任 
何 高 性 能 计算 机 系统 的 安装 中 ，MPI 库 都 被 当 作 是 一 个 不 可 缺少 的 成 分 ， 众 多 类 型 的 互联 均 
被 它 所 支持 。 

目前 的 MPI 标准 MPI 2.2 (我 们 在 本 书 中 一 直 提 到 的 版 本 ) 定义 了 500 BPS RR, ES 
介绍 它们 显然 已 经 超出 了 本 书 的 范围 。 本 章 我 们 重点 介绍 消息 传递 的 重要 概念 和 几 个 特定 的 
MPI 哨 数 ， 同 时 介绍 一 些 知识 方便 读者 查阅 一 些 最 新 的 参考 资料 [P13,P14] 以 及 MPI 标准 文 
档 [W128,P15]。 
9.1 消息 传递 

对 于 分 布 式 存储 类 型 的 并 行 机 来 说 ， 一 台 处 理 器 无 法 直接 访问 另 一 台 处 理 器 的 地 址 空 
间 ， 因 此 需要 借助 消息 传递 。 消 息 传 递 也 可 以 被 看 成 是 一 个 编程 模型 ( programming model ) 
并 使 用 在 共享 内 存 或 者 混合 型 的 计算 机 系统 上 (人 参见 第 4 章 )。 作 为 当今 主流 的 消息 传递 标 
准 ，MPI 遵循 以 下 规则 : 

口 同一 程序 运行 在 全 部 进程 上 (单程 序 、 多 数据 ， 也 称 SPMD )。 相 比 于 更 一 般 的 
MPMD (多 程序 、 多 数据 ) 模型 ， 这 里 并 没有 约束 ， 因 为 参与 并 行 计 算 的 所 有 进程 
可 以 用 称 为 rank 的 唯一 标识 符 来 区 分 (参见 下 面 )。 如 今 的 大 多 数 MPI 实现 版 本 均 
支持 以 不 同 的 二 进 制 文件 发 起 的 不 同 进程 。MPMD 型 的 消息 传递 库 称 为 并 行 虚拟 机 
( Parallel Virtual Machine, PVM) [P16]。 由 于 在 近 些 年 它 的 重要 性 已 经 逐渐 下 降 ， 这 
里 将 不 再 提 及 。 

口 程序 用 串 行 语 言 编 写 ， 如 Fortran 、C、C++。 数 据 交 换 ， 即 消息 的 发 送 和 接受 ， 通 过 
调用 一 个 恰当 的 库 来 完成 。 

口 一 个 进程 中 的 所 有 变量 对 这 个 进程 来 说 都 是 局 部 的 ， 这 里 没有 共享 内 存 的 概念 。 

需要 补充 的 是 对 于 分 布 式 存储 计算 机 ， 消 息 传 递 并 不 是 唯一 的 编程 范式 。 专 门 化 的 语言 

如 High Performance Fortran (HPF), Co-Array Fortran (CAF) [P17]、 Unified Parallel C (UPC) 
[P18] 等 已 经 被 开发 出 来 。 它 们 内 置 了 分 布 式 存储 的 并 行 化 ， 但 是 它们 并 没有 发 展 成 广阔 的 
用 户 社 区 ， 而 且 它 们 能 否 达 到 MPI 的 效率 也 不 清楚 。 
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在 一 个 消息 传递 程序 中 ， 消 息 在 进程 间 携 带 数 据 。 这 些 进程 可 以 各 自 和 运行 在 独立 的 计算 
节点 上 ， 抑 或 同一 个 节点 上 的 不 同 核 ， 甚 至 可 以 分 时 运行 在 同一 个 处 理 器 核 上 。 消 息 可 以 是 
一 个 简单 的 条 目 (如 一 个 双 精 度 字 )， 也 可 以 是 一 个 分 散 到 整个 地 址 空间 的 复杂 结构 。 对 于 
一 个 使 用 有 序 方式 传递 的 消息 ， 需 要 提前 确定 如 下 参数 : 

口 哪个 进程 在 发 送 消息 ? 

口 数据 在 发 送 进程 上 的 什么 位 置 ? 

T 发 送 的 是 哪 种 数据 ? 

口 有 多 少数 据 ? 

口 哪个 进程 将 要 接收 消息 ? 

Ch 数据 将 被 放 在 接收 进程 的 什么 位 置 ? 

CO) 接收 进程 准备 接收 的 数据 量 是 多 少 ? 

所 有 实际 传输 数据 的 MPI 调用 都 必须 以 某 种 方式 指定 这 些 参数 。 注 意 以 上 这 些 参 数 都 
严格 地 与 点 对 点 的 通信 有 关 ， 即 恰好 有 一 个 发 送 者 和 一 个 接收 者 。 正 如 我 们 即将 看 到 的 ， 
MPI 不 仅 支 持 在 两 个 进程 间 发 送 单 一 的 消息 ， 同 时 对 于 那些 更 复杂 的 情况 也 含有 一 个 类 似 于 
上 面 参 数 的 集合 。 

MPI 是 一 个 十 分 广泛 的 标准 ， 它 包含 数量 庞大 的 库 例 程 。 不 过 幸运 的 是 ， 大 部 分 应 用 只 
需要 它们 中 很 少 的 一 部 分 。 

代码 清单 9-1 Fortran 90 编写 的 一 个 简单 且 功 能 完善 的 “Hello World” MPI 程序 


program mpitest 


use MPI 


call MPI_Init (ierror) 
call MPI_Comm_size(MPI_COMM WORLD, size, ierror) 
9 call MPI Comm rank (MPI COMM WORLD, rank, ierror) 


| 

2 

3 

4 

s integer :: rank, size, ierror 
6 

7 

8 


1 write(*,*) ‘Hello World, I am ’,rank,’ of ’,size 


3 Call MPI Finalize (ierror) 
14 end 


9.2 MPI 简介 
9.2.1 一 个 简单 例子 


MPI 作为 一 个 库 很 容易 获得 。 在 编译 和 链接 MPI 程序 时 ， 编 译 器 和 链接 器 需要 编译 选 
项 来 指定 包含 文件 (EI C 头 文 件 和 Fortran 模块 ) 和 库 文 件 可 以 在 何 处 找到 。 由 于 安装 的 
地 址 可 能 会 有 很 大 变化 ， 大 多 数 MPI 实 现 提供 了 包装 好 的 编译 器 脚本 (通常 称 为 mpicc、 
mpif77 等 )。 它 们 自动 支持 所 需 的 编译 选项 ， 除 此 之 外 ， 它 们 的 行为 与 正常 的 编译 器 十 分 类 
Wo MPI 标准 并 没有 规定 MPI 程序 该 如 何 编译 和 执行 ， 所 以 请 务必 查阅 相关 系统 文档 。 

代码 清单 9-1 展示 了 一 个 用 Fortran 90 编写 的 “ Hello World”MPI 程 序 。(C 语言 版 本 
请 参见 代码 清单 9-2， 我 们 将 主要 介绍 Fortran 版 的 MPI 绑 定 ， 在 恰当 的 地 方 仅 描述 和 C 语 
言 相 比 的 不 同 之 处 。 尽 管 标准 中 也 定义 了 C++ 版 本 的 绑 定 ， 但 可 用 性 有 限 ， 因 此 这 里 将 不 
再 涉及 。 事 实 上 ， 在 MPI 2.2 版 本 中 ，C++ 已 经 被 弃 用 了 。) 代码 第 3 行 ， 导 入 MPI 模块 ， 
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它 提 供 了 所 需 的 全 局 变量 和 定义 (在 C 语言 中 ， 预 处 理 程序 用 来 读 取 mpi.h 头 文件 ，Fortran 
77 中 等 价 的 头 文件 称 为 mpif.h)。 所 有 的 Fortran 版 MPI 调用 都 使 用 一 个 INTENT(OUT) & 
数 ， 这 里 称 为 ierror。 它 传递 对 用 户 代 码 使 用 MPI 操作 是 否 成 功 的 信息 ， 值 MPI_ SUCCESS 
意味 着 没有 错误 。 在 C 语言 中 ， 函 数 的 返回 值 用 来 实现 这 一 功能 ， 故 不 存在 ierror BR. A 
于 失败 跳出 并 没有 包含 在 当下 的 MPI 标准 中 ， 同 时 检查 点 或 重新 启动 等 功能 在 用 户 代 码 中 
通常 都 有 实现 ， 因 此 在 实际 操作 中 ， 检 错 代码 几乎 很 少 用 到 。 

除了 变量 声明 外 ， 任 何 MPI 程序 代码 的 第 一 句 都 是 调用 MPI Init()， 用 以 初始 化 并 行 环 
境 (第 7 行 )。 若 某 一 种 线程 的 并 行 同 MPI 一 起 使 用 ， 那么 仅 调 用 MPI Init) 是 不 够 的 ， 详 
见 第 11 章 。 

代码 清单 9-2 C 语言 编写 的 一 个 简单 且 功 能 完善 的 “Hello World” MPI 程序 


1 #include <stdio.h> 

2 #include <mpi.h> 

3 

int main(int argc, char** argv) i 
int rank, size; 


MPI Init (&argc, &argv) ; 

MPI Comm size (MPI COMM WORLD, é&size) ; 

9 MPI Comm_rank (MPI COMM WORLD, érank) ; 

10 

1 printf("Hello World, I am %d of %d\n", rank, size); 


12 
13 MPI Finalize ()j; 
14 return 0; 

15 } 


MPI 对 C 语言 的 绑 定 遵循 区 分 大 小 写 的 命名 模式 ， 如 MPI Xxxxx..., 而 Fortran 语言 
并 不 区 分 。 相 反 于 Fortran，C 语言 绑 定 的 MPI Init() 函数 将 指针 返回 到 主 函 数 参 数 ， 因 此 
MPI 库 可 以 估计 或 删除 那些 有 可 能 由 MPI 发 起 进程 带 来 的 额外 命令 行 参数 。 

在 初始 化 时 ，MPI 建 立 了 所 谓 的 世界 通信 器 (world communicator), RRE MPI COMM 
WORLD。 通 信 上 需 定 义 了 能 被 通信 和 句柄 引用 的 一 组 MPI 进程 。 句 柄 MPI COMM WORLD 
描述 了 所 有 已 经 发 起 的 作为 并 行程 序 一 部 分 的 进程 。 如 果 需 要 ， 其 他 通信 器 可 以 定义 为 
MPI_COMM_WORLD 的 子 集 。 几 乎 所 有 的 MPI 基数 调用 均 需 要 通信 器 作为 参数 。 

第 8、9 行 的 图 数 调 用 MPI Comm size() 和 MPI Comm rank() 各 自决 定 了 并 行程 序 
中 发 起 进程 的 数目 (size) 以 及 所 调用 进程 的 唯一 标识 符 (rank)。 注 意 ，C 语言 绑 定 需要 指 
定 输出 参数 (如 上 文 提 到 的 rank 和 size) 为 指针 。 通 信 器 中 的 进程 排序 ， 如 本 例 中 MPI_ 
COMM_WORLD， 是 从 0 开始 连续 递增 的 。 代 码 第 13 行 ， 调 用 函数 MPI Finalize) 以 结束 
并 行程 序 。 注 意 ， 除 进程 0 外 ， 其 他 MPI 进程 均 不 可 以 在 调用 MPI Finalize() 后 继续 执行 
任何 代码 。 

为 了 编译 运行 代码 清单 9-1 中 的 源 代码 ， 通 常 的 实现 方式 可 能 需要 以 下 几 步 : 


1 $ mpif90 -03 -o hello.exe hello.F90 
2 $ mpirun -np 4 ./hello.exe 


它 将 会 编译 代码 然后 发 起 4 个 进程 来 运行 这 段 程序 。 在 并 行程 序 执行 前 ， 这 些 处 理 器 必 
须 先 通过 资源 管理 ( 批 处 理 ) 系统 来 分 配 任务 ，MPI 进程 具体 如 何 发 起 完全 取决 于 其 实现 。 
理想 情况 下 ， 局 动机 制 使 用 资源 管理 器 提供 的 设施 〈 如 运行 在 所 有 节点 上 的 守护 进程 ) 来 发 
起 进程 。 进 程 与 核 之 间 的 关联 也 是 如 此 。 如 果 此 MPI 实现 版 本 不 提供 用 于 arrinity 控制 的 直 
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接 设 施 ， 那 么 将 会 使 用 附录 A 中 提 到 的 方法 。 
这 个 小 程序 的 输出 结果 如 下 : 


1 Hello World, I am 3 of 4 
2 Hello World, I am 0 of 4 
3 Hello World, I am 2 of 4 
4 Hello World, I am 1 of 4 


尽管 MPI 程序 的 标准 输出 和 标准 错误 通常 会 重 定向 到 程序 开始 的 终端 ， 但 是 如 果 不 使 
用 其 他 方法 强制 指定 ,不 同 进 程 输出 到 达 的 顺序 是 不 确定 的 。 


9.2.2 ”消息 和 和 点 对 点 通信 


实例 “Hello World ”中 除去 发 起 及 终止 进程 外 ， 没 有 包含 任何 真正 的 进程 间 通 信 。MPI 
消息 被 定义 为 一 个 包含 特殊 MPI 数据 类 型 的 数组 。 数 据 类 型 可 以 是 基本 类 型 (取决 于 每 种 编 
程 语言 的 标准 类 型 )， 也 可 以 是 由 适当 MPI 调用 定义 的 导出 类 型 。MPI 需要 知道 消息 的 数据 
类 型 的 原因 在 于 它 支持 异 构 的 环境 ， 这 种 环境 在 处 理 动态 数据 转换 时 是 必需 的 。 对 于 任何 将 
要 进行 的 消息 传递 ， 发 送 端 和 接收 端的 数据 类 型 必须 匹配 。 表 9-1 和 表 9-2 分 别 给 出 了 C 语 
言 和 Fortran 语言 绑 定 的 部 分 MPI 数据 类 型 列表 。 
表 9-1 Fortran 语言 绑 定 的 标准 MPI 数据 类 型 


MPI 类 型 Fortran 类 型 
MPI_CHAR CHARACTER (1) 
MPI INTEGER INTEGER 
MPI REAL REAL 
MPI DOUBLE PRECISION DOUBLE PRECISION 
MPI COMPLEX COMPLEX 
MPI LOGICAL LOGICAL 
MPI BYTE N/A 
表 9-2 部 分 C 语言 绑 定 的 标准 MPI 数据 类 型 。 适 当时 存在 无 符号 类 型 
MPI 类 型 C 类 型 
MPI CHAR signed char 
MPI INT signed int 
MPI LONG signed long 
MPI FLOAT float 
MPI DOUBLE l double 
MPI_BYTE N/A 


当 仅 有 一 个 发 送 者 和 一 个 接受 者 时 ， 我 们 称 这 种 情况 为 点 对 点 通信 。 收 发 两 端 用 各 自 的 

进程 号 来 唯一 确定 。 每 一 个 点 对 点 的 消息 携带 一 个 额外 的 整数 标签 ， 即 所 谓 的 tag， 用 来 确 

定 的 消息 类 型 ， 并 且 两 端 必须 匹配 。 它 可 以 携带 任何 额外 信息 ， 当 不 需要 时 ， 它 将 被 设置 成 
币值 。 从 一 个 进程 发 送 消 息 到 另 一 进程 的 基本 MPI 函数 为 MPI Send(): 


1 <type> buf (x) 


2 integer :: count, datatype, dest, tag, comm, ierror 

3 call MPI_Send (buf, ! message buffer 

4 count, ! # of items 

5 datatype, ! MPI data type 

6 dest, ! destination rank 

7 tag, ! message tag (additional label) 
8 comm, ! communicator 

9 ierror) ! return value 


消息 缓冲 区 的 数据 类 型 可 以 改变 ，MPI 接口 及 其 在 模块 中 声明 的 协议 和 头 文件 均 支 持 
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它 “。 接 收 消息 时 使 用 函数 MPI Recv(): 


<type> buf (+) 


] 
2 integer :: count, datatype, source, tag, comm, 

3 integer :: status (MPI_STATUS_SIZE), ierror 

4 Call MPI_Recv (buf, ! message buffer 

5 count, ! maximum # of items 

6 datatype, ! MPI data type 

7 source, ! source rank 

5 tag, ! message tag (additional label) 

9 comm, ! communicator 

10 status, ! status object (MPI_Status* in C) 
11 ierror) ! return value 





与 MPI Send() 相 比 ， 此 天数 有 一 个 额外 的 输出 参数 一 一 status XAT AE. K% MPI_Recv() 
返回 后 ，status 对 象 可 以 用 来 决定 尚 没有 被 调用 所 固定 的 参数 。 它 主要 适用 于 消息 的 长 度 ， 
因为 参数 count 表示 的 只 是 接收 端 可 以 接收 消息 的 最 大 长 度 值 ， 实 际 接收 消息 的 长 度 很 可 能 
小 于 count。 调 用 函数 MPI Get count() 可 以 得 到 实际 的 长 度 值 。 


ı integer :: status(MPI_STATUS_SIZE), datatype, count, ierror 
2 call MPI Get count (status, Status object from MPI_Recv() 


3 datatype, ! MPI data type received 
4 count, ! count (output argument) 
5 ierror) ! return value 


status X Ath A Hh AY FE. «eK BX MPI Recv() 的 参数 source 和 tag 可 以 用 专门 的 常 
量 (“通配符 ”) MPI ANY SOURCE 和 MPI ANY TAG 分别 填充 。 前 者 表明 消息 可 以 被 
任何 人 送 ， 后 者 表明 消息 标签 无 关 紧 要 。MPI Recv() 返回 后 ，status(MPI SOURCE) 和 
status(MPI_ TAG) 分 别 包含 了 发 送 者 的 进程 号 及 消息 的 标签 。(C 语言 中 ，status 对 象 属于 
struct MPI_ Status 类 型 的 一 部 分 ， 可 以 通过 操作 符 “. ”获得 消息 源 和 标签 信息 。) 

TERS, Pk MPI Send0 和 MPI Recv() 含有 封闭 的 语义 ， 这 意味 着 在 哺 数 返回 后 缓冲 
区 可 以 安全 地 使 用 CB) MPL Send() 返回 后 对 消息 的 更 改 不 会 对 发 送 中 的 消息 造成 任何 影响 ， 
同时 ， 在 函数 MPI_Recv() 返回 后 ， 也 可 以 保证 消息 被 完全 接收 了 )。 这 一 点 不 会 和 同步 机 制 
混 消 ， 请 看 下 面 的 例子 。 

代码 清单 9-3 展示 了 一 段 并 行 在 某 个 函数 fx) 上 计算 积分 的 MPI 程序 段 。 与 代码 清单 
6-2 中 的 OpenMP 版 本 相反 的 是 ，MPI 中 的 各 个 进程 间 的 任务 分 配 必须 手动 来 完成 。 根 据 进 
程 号 ， 每 个 MPI 进程 被 分 配 了 积分 区 域 上 相应 的 部 分 子 区 域 (代码 9、10 行 )。 之 后 ， 函 数 
integrate() 可 以 在 相应 子 区 域 上 完成 实际 的 积分 (代码 13 行 )， 这 看 上 去 和 代码 清单 6-2 很 
像 。 计 算 完 成 后 ， 每 个 进程 得 到 了 自己 的 部 分 结果 ， 这 些 结果 需要 累加 在 一 起 以 得 到 最 终 的 
积分 值 。 这 个 工作 由 进程 0 来 完成 ， 它 在 全 部 其 他 进程 号 1 ~ size-1 之 间 执 行 循环 (代码 
18 ~ 29 行 )， 依 次 调用 函数 MPI Recv( 代 码 1947) 从 每 个 其 他 进程 处 接收 各 个 部 分 积分 值 ， 
计算 最 终结 果 并 写 回 变量 res (代码 28 行 )。 除 了 进程 0， 其 余 的 所 有 进程 均 需 调用 MPT 
Send ( ) 来 传输 数据 。 因 此 ， 总 共有 size—1 个 成 对 的 接收 和 发 送 消息 操作 。 收 发 两 端的 数 
据 类 型 被 指定 为 MPIL DOUBLE PRECISION, 也 就 是 Fortran 语言 中 通常 的 双 精 度 类 型 (|S 
见 表 9-1 )。 这 里 没有 使 用 消息 标签 ， 故 我 们 将 它 设置 为 0。 

这 个 简单 的 程序 可 以 通过 下 面 的 方式 进行 优化 : 

GO 对 于 C/C++ 的 MPI 绑 定 ，void* 指针 类 型 可 以 很 方便 地 隐藏 参数 类 型 的 改变 ， 因 此 不 存在 任何 问题 。 但 是 这 


种 改变 对 于 Fortran 的 MPI 绑 定 是 明确 不 符合 语言 标准 的 ， 幸 运 的 是 在 大 多 数 情 况 下 ， 这 种 改变 都 是 可 以 容 
忍 的 。 详 情 参见 标准 文档 [P15]。 


152 


ROE 


口 MPI 标准 并 不 保证 消息 传递 的 时 序 性 ， 除 了 在 相同 的 发 送 者 、 接 收 者 (相同 的 标 


签 ) 之 间 传 递 这 种 情况 外 。 因 此 ， 为 了 使 进程 0 能够 无 延迟 地 接收 在 不 同 执行 时 间 
下 函数 integrate() 在 其 他 进程 上 得 到 的 结果 ， 一 种 更 好 的 方法 是 使 用 MPI ANY 
SOURCE 通配符 代替 代码 23 行 中 确定 的 进程 号 。 


O 进程 0 在 目 己 调用 的 限 数 integrate ( ) 返回 前 ， 没 有 调用 困 数 MPI Recv()。 此 时 ， 


co y A a È UV N ~= 
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如 采 其 他 进程 先 于 进程 0 完成 了 自己 那 部 分 的 计算 ， 那 么 进程 通信 将 被 阻塞 ， 而 且 
不 能 被 计算 所 掩盖 。MPI 标准 提供 了 非 阻 塞 点 对 点 通信 设施 ， 支 持 多 个 未 完成 的 接 
收 《和 发 送 )， 甚 至 允许 支持 异步 消息 的 实现 。 详 见 9.2.4 节 。 


代码 清单 9-3 MPI 并 行 积 分 程序 片段 


integer, dimension(MPI_STATUS_SIZE) :: status 
call MPI_Comm_size(MPI_COMM WORLD, size, ierror) 
call MPI_Comm_rank (MPI_COMM_WORLD, rank, ierror) 


! integration limits 
a=0.d0 ; b=2.d0 ; res=0.d0 


! limits for "me" 
mya=a+rank*« (b-a) /size 
myb=mya+ (b-a) /size 


! integrate f(x) over my own chunk - actual work 
psum = integrate (mya, myb) 


! rank 0 collects partial results 
if(rank.eq.0) then 
res=psum 


do i=1,size-1 
call MPI_ Recv (tmp, & ! receive buffer 
1, & ! array length 
! data type 
MPI_DOUBLE_PRECISION, & 
ia & ! rank of source 
0, & ! tag (unused here) 
MPI_COMM_WORLD,& ! communicator 
status,& ! status array (msg info) 
ierror) 
res=res+tmp 
enddo 
write(*,*) ‘Result: ‘,res 
1 ranks != 0 send their results to rank 0 
else 
call MPI_Send (psum, & ! send buffer 
1, & ! message length 
MPI_DOUBLE_PRECISION, & 
0, & ! rank of destination 
0, & ! tag (unused here) 
MPI_COMM WORLD, ierror) 
endif 
由 于 进程 0 需要 收集 最 终结 果 ， 当 传递 消息 的 数量 增 大 时 ， 该 进程 必然 会 产生 通信 


瓶颈 。 在 10.4.4 节 中 ， 我们 将 会 证 明 优 化 可 以 大 幅度 减少 这 种 情况 下 的 通信 开销 。 
泣 运 的 是 ， 没 人 需要 为 这 一 点 写 具体 的 代码 。 事 实 上 ， 全 局 求 和 是 归 约 操作 的 一 个 
例子 ， 并 且 它 很 好 地 被 MPI 所 支持 (参见 9.2.3 节 )。 目 前 厂商 的 实现 已 经 默认 提供 
这 种 全 局 操作 的 优化 版 本 。 


尽管 MPI_Send() 郴 数 很 容易 使 用 ， 但 在 具体 实现 上 ， 程 序 员 应 该 意识 到 MPI 标准 给 予 
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了 它 很 大 的 自由 。 内 在 地 ，MPI Send) 可 能 会 完全 同步 地 工作 ， 这 意味 着 在 发 出 的 信息 尚 
未 与 接收 者 达成 “握手 ”之 前 ， 函 数 调用 不 能 返回 到 用 户 代 码 。 然 而 ， 它 也 可 能 暂时 将 消息 
复制 到 中 间 缓 冲 区 然后 立即 返回 ， 让 其 他 机 制 如 后 台 线 程 完成 握手 以 及 数据 传输 。 是 否 改变 
自己 的 行为 取决 于 任何 显 式 的 或 者 隐藏 的 参数 。 如 果 没 有 考虑 MPI_Send() 执行 时 可 能 的 同 
步 性 ， 那 么 除了 对 性 能 会 造成 影响 ， 死 锁 亦 有 可 能 发 生 。 一 个 典型 的 通信 例子 叫做 “ 圆 环 转 
换 ”( 参 看 图 9-1 )， 所 有 进程 位 于 闭合 的 圆 环 拓扑 结构 上 ， 每 个 进程 先 回 目 己 左边 相 邻 的 进 
程 发 送 消息 ， 然 后 从 右边 相 邻 的 处 理 需 接收 消息 : 


integer :: size, rank, left, right, ierror 
integer, dimension(N) :: buf 

call MPI_Comm_size(MPI_COMM_ WORLD, size, ierror) 
call MPI_Comm_rank (MPI_COMM_WORLD, rank, ierror) 


left = rank+l ! left and right neighbors 
right = rank-1 
if (right<0) right=size-1 ! close the ring 


w% uy A ua he WwW NS 


if (left>=size) left=0 
call MPI_Send (buf, N, MPI_INTEGER, left, 0, & 
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10 MPI_COMM_WORLD, ierror) 
1) call MPI_Recv (buf,N,MPI_INTEGER,right,0, & 
12 MPI_COMM_ WORLD, status, ierror) 





图 9-1 环形 转换 通信 模式 。 假 如 发 送 和 接收 按 图 中 的 顺序 执行 ， 死 锁 将 会 发 生 ， 这 是 因为 函 
数 MPI Send() 可 能 是 同步 执行 的 
如 果 MPI_Send() 是 同步 执行 的 ， 所 有 的 进程 先 调用 它 ， 然 后 等 待 直到 与 之 匹配 的 接收 
者 发 出 接收 信号 。 然 而 ， 如 果 通 信 的 消息 足够 短小 ， 环 形 转换 也 可 能 不 会 发 生死 锁 。 事 实 
上 ， 大 多 数 的 MPI 实现 版 本 提供 了 一 个 〈 小 的 ) 临时 缓冲 区 来 存放 少量 消息 ， 当 缓冲 区 填 满 
或 者 太 小 的 时 候 (这 种 情形 实际 上 有 一 点 复杂 ， 详 见 10.2 节 和 10.3 节 )，MPI Send) E&Y) 
换 到 同步 模式 ， 这 会 导致 不 定时 的 死 锁 发 生 ， 而 且 很 难 检 测 到 。 如 果 你 怀疑 程序 中 的 不 定时 


死 锁 是 由 MPI_Send() 切换 到 同步 模式 引起 的 ， 那 么 可 以 在 程序 中 用 MPI_Ssend0 代替 MPI 


send() 来 检验 ， 前 者 被 定义 成 同步 的 并 且 与 后 者 拥有 同样 的 接口 。 

一 种 解决 死 锁 问题 的 简 答 方法 是 互 换 MPI Send0 和 MPI Recv() 调用 的 次 序 ， 比 如 调 
换 这 两 个 也 数 在 所 有 奇数 号 进程 的 调用 次 序 ， 这 样 对 于 每 一 个 消息 的 发 送 都 有 一 个 与 之 匹配 
的 接收 ( 见 图 9-2 )。 上 述 代码 中 9 ~ 12 行 应 该 被 改写 成 : 


| if (MOD (rank,2)/=0) then 

2 call MPI_Recv(buf,N,MPI_INTEGER,right,0, & ! odd rank 
3 MPI_COMM_WORLD, status, ierror) 

4 call MPI_Send(buf, N, MPI_INTEGER, left, 0, & 

5 MPI_COMM_WORLD, ierror) 

6 else 

7 call MPI_Send (buf, N, MPI_INTEGER, left, 0, & ! even rank 
8 MPI_COMM_ WORLD, ierror) 

9 call MPI_Recv (buf,N,MPI_INTEGER,right,0, & 

0 MPI_COMM_WORLD, status, ierror) 

1 endif 
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图 9-2 一 种 环形 转换 死 锁 问题 的 可 能 解法 : 改变 奇数 号 进程 上 MPL Send() 和 MPI Recv() 的 
顺序 ， 这 样 对 于 每 一 个 发 送 消息 的 操作 都 有 一 个 与 之 相 匹 配 的 接收 操作 (虚线 框 内 )， 
因此 成 对 的 进程 可 以 避免 死 锁 而 进行 通信 


在 一 次 由 偶数 进程 号 传递 的 消息 结束 后 ， 剩 下 的 发 送 /接收 对 也 能 够 进行 匹配 。 这 种 方 
法 没有 充分 利用 非 阻塞 网 络 的 全 部 带宽 ， 因 为 在 任何 时 刻 仅 有 一 半 的 通信 和 连接 是 活跃 的 ( 当 
MPI Send() 是 完全 同步 的 )。 更 好 的 替代 方法 是 使 用 非 阻 塞 通信 。 详 细 内 容 参 见 9.2.4 节 及 
习题 9.1 以 更 多 地 了 解 环 形 转换 模式 。 

由 于 环形 转换 或 与 其 相似 的 模式 是 普遍 存在 的 ， 即 使 在 阻塞 通信 的 情况 下 ，MPI 对 它们 
也 有 一 些 直接 的 支持 。 上 因数 MPI Sendrecv() 和 MPI Sendrecv_replace() 将 标准 的 发 送 和 接 
收 结合 在 一 次 调用 当中 。 其 中 后 者 使 用 一 个 通信 缓冲 区 ， 接 收 的 消息 会 覆盖 发 送 的 数据 。 这 
两 个 函数 都 能 确保 不 会 如 单独 发 送 和 接收 消息 那样 产生 死 锁 。 

最 后 需要 补充 一 点 的 是 ，MPI 中 也 有 在 不 考虑 接收 者 状态 的 情况 下 能 返回 到 用 户 代 
码 的 阻塞 发 送 消 息 的 函数 (MPI_Bsend())。 然 而 ， 用 户 必 须 显 式 地 在 发 送 端 提供 足够 
的 缓冲 空间 。 这 种 方法 在 实际 中 很 少 出 现 ， 原因 在 于 非 阻 塞 通 信 相 对 更 容易 使 用 (参见 
9.2.4 7). 


9.2.3 ”集合 通信 


如 上 文 展示 的 那样 将 各 部 分 计算 结果 进行 收集 是 归 约 操作 的 一 个 实例 ， 它 执行 在 通信 空 
间 中 的 所 有 进程 上 。 在 OpenMP 的 相关 章节 中 ， 我 们 已 经 对 归 约 进行 了 介绍 〈 见 6.1.5 4), 
它们 有 着 相同 的 目的 。 在 MPI 中 ,也 有 使 归 约 更 简单 的 机 制 ， 这 种 机 制 在 大 多 数 情 况 下 相 
比 于 在 所 有 的 进程 号 间 循 环 来 收集 结果 的 方式 更 高 效 。 由 于 归 约 是 在 同一 通信 空间 中 的 所 
有 进程 共同 参与 的 一 个 过 程 ， 因 此 在 MPI 中 ， 它 属于 所 谓 的 集合 (collective) 或 者 全 局 通信 
( global communication) 操作 。 不 同 于 点 对 点 通信 ， 集 合 通信 需要 每 个 进程 调用 相同 的 郴 数 ， 
因此 对 于 一 个 点 对 点 的 消息 发 送 ， 如 MPI _Send()， 是 不 可 能 匹配 使 用 集合 方式 初始 化 的 接 


收 者 的 。 
MPI 中 最 简单 的 集合 是 栅栏 (barrier)， 它 不 做 任何 实际 上 的 数据 转换 
! integer :: comm, ierror 
2 call MPI Barrier (comm, ! communicator 


3 ierror) ! return value 


栅栏 使 同一 通信 空间 中 的 所 有 成 员 同 步 ， 即 在 返回 各 自 的 用 户 代 码 之 前 ， 所 有 的 进程 必 
须 调 用 这 个 函数 。 尽 管 最 初 的 时 候 人 们 频繁 地 使 用 它 ， 但 是 在 MPI 中 它 的 重要 性 通常 是 被 
高 佑 的 ， 因 为 其 他 的 MPI 例 程 考 虑 到 了 用 更 好 的 控制 来 实现 隐 式 或 者 显 式 的 同步 。 尽 管 如 
此 ， 它 有 时 也 被 用 来 调试 和 分 析 程 序 。 

广播 是 一 个 更 有 用 的 集合 ， 它 从 一 个 进程 (“ 根 ”) 发 送 消息 到 通信 空间 中 的 所 有 其 他 进 
程 中 : 
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1 <type> buf (x*) 


2 integer :: count, datatype, root, comm, ierror 

3 call MPI_Bcast (buffer, ! send/receive buffer 

4 count, ! message length 

5 datatype, ! MPI data type 

6 root, ! rank of root process 

7 comm, ! communicator 

8 ierror) ! return value 213 


“ 根 ” 是 一 些 通用 数据 源 所 在 的 地 方 ， 这 个 概念 对 于 很 多 集合 例 程 来 说 都 是 相通 的 。 尽 
管 将 0 号 进程 选 为 “ 根 ” 是 很 自然 的 ， 但 是 它 并 不 与 其 他 进程 不 同 。MPI Beast() 的 缓冲 区 
参数 是 位 于 “ 根 ” 上 的 发 送 缓冲 区 和 任意 其 他 进程 上 的 接收 缓冲 区 ( 见 图 9-3 )。 正 如 已 经 提 
到 的 那样 ， 通 信和 空间 中 的 每 个 进程 必须 调用 这 个 历程 ， 当 然 所 有 其 他 调用 的 root 参数 必须 
相同 。 当 一 个 进程 含有 的 信息 必须 同 其 他 进程 共享 时 需要 使 用 广播 。 例如， 在 程序 开始 运行 
后 ， 通 常会 有 一 个 执行 一 些 初 始 化 操作 的 进程 ， 如 读 参 数 文件 或 者 命令 行 参数 。 随 后 ， 它 就 
可 以 将 这 些 读 到 的 数据 通过 MPL Beast) 与 其 他 进程 通信 。 





图 9-3 一 个 MPI 广 播 :“ 根 ”进程 (本 例 中 标号 为 1 ) 向 所 有 其 他 进程 发 送 相同 的 消息 。 通 信 
空间 中 的 每 个 节点 必须 使 用 相同 的 根 参 数 调 用 MPI Beast) 


许多 更 高 级 的 集合 调用 通常 与 全 局 数据 分 布 有 关 。MPI_Gather() 收集 所 有 进程 发 送 缓冲 
区 的 内 容 ， 以 一 定 的 次 序 将 它们 连接 然后 写 人 根 进程 的 接收 缓冲 区 。MPI Scatter() 执行 
置 ， 它 将 根 进程 的 发 送 缓冲 区 分 成 相同 大 小 的 块 。 它 们 存在 于 支持 任意 块 大 小 的 变量 中 (在 
名 字 上 附加 “v”)。MPI Allgather() 是 MPI Gather() 和 MPI Beast() 的 结合 。 表 9-3 给 出 了 
更 多 的 例子 。 

回 到 之 前 求 积 分 的 那个 例子 ， 我 们 已 经 表明 存在 更 高 效 的 方法 计算 全 局 归 约 ， 这 就 是 函 
数 MPI Reduce(): 


1 <type> sendbuf(«), recvbuf (*) 

2 integer :: count, datatype, op, root, comm, ierror 

3 call MPI Reduce (sendbuf, ! send buffer 

4 recvbuf, ! receive buffer 

5 count, ! number of elements 

6 datatype, ! MPI data type 

7 op, ! MPI reduction operator 
8 root, ! root rank 

9 comm, 1 communicator 

10 ierror) ! return value 


MPI_Reduce() 根据 op 参数 指定 的 操作 类 型 ， 将 所 有 进程 上 sendbuf 数 组 中 的 内 容 按 元 
素 位 置 对 应 结合 起 来 并 将 结果 存储 在 根 进程 的 recvbuf 中 (参见 图 9-4 )。 共 有 12 种 预定 义 
的 操作 ， 其 中 最 重要 的 4 种 是 MPI MAX, MPI MIN, MPI SUM Ñ MPI PROD， 它 们 分 
别 实 现 了 计算 全 局 最 大 值 、 最 小 值 、 求 和 以 及 乘积 。 它 同时 也 支持 用 户 自 定义 的 操作 。 
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op=MPI SUM recvbuf 

图 9-4 一 个 用 MPI Reduce) 实现 的 长 度 为 count 的 数组 归 约 (本 例 中 是 求 和 )。 每 个 进程 必须 
提供 一 个 发 送 缓冲 区 ， 接 收 缓冲 区 参数 仅 使 用 在 根 进程 上 。 根 进程 上 的 局 部 复制 可 以 
通过 用 MPL IN_PLACE 代替 发 送 缓冲 区 地 址 来 避免 


现在 已 经 很 清楚 了 ， 代 码 清单 9-3 中 第 16 ~ 39 行 的 整个 if…else…endif 结构 (除了 第 
30 行 打印 结果 ) 可 以 改写 如 下 : 










ı call MPI_Reduce (psum, & ! send buffer (partial result) 

2 res, & ! recv buffer (final result @ root) 
3 1, & ! array length 

4 MPI_DOUBLE_PRECISION, & 

5 MPI_SUM, & ! type of operation 

6 0, & ! root (accumulate result there) 

7 MPI_COMM WORLD, ierror) 


尽管 接收 缓冲 区 (这 里 是 res 变量 ) 必须 在 所 有 进程 上 指定 ， 它 却 仅 使 用 在 根 进程 上 。 
通常 情况 下 ，MPI Reduce() 在 根 进 程 上 需要 独立 的 发 送 和 接收 缓冲 区 。 如 果 程 序 语义 允许 ， 
那么 在 根 进 程 上 的 本 地 运算 可 以 通过 将 sendbuf 参数 设置 成 固定 的 常量 MPI_IN_PLACE 来 
简化 。recvbuf 被 用 作 发 送 缓 冲 区 ， 被 全 局 结果 所 窗 盖 。 当 count 值 很 大 ， 并 且 多 余 的 复制 
操作 会 导致 明显 的 开销 时 ， 这 种 方式 对 性 能 很 有 帮助 。 在 其 他 所 有 的 非 根 进程 上 调用 的 方式 
并 不 改变 。 

还 有 一 些 其 他 关于 MPI Reduce() 的 全 局 操作 值得 注意 。 例 如 ，MPI Allreduce() 是 一 种 
归 约 和 广播 的 融合 ; MPI Reduce_scatter() 244i T A% MPI Reduce() 及 MPI Scatter(). 

集合 体 不 需要 同步 操作 就 能 使 所 有 进程 同步 (当然 ， 栅 栏 在 定义 上 是 同步 的 )， 因 此 可 
能 诱发 和 阻塞 点 对 点 通信 相似 的 死 锁 危险 ( 见 上 面 )。 这 意味 着 ,集合 体 必须 在 所 有 进程 上 
以 相同 的 顺序 执行 。 参 见 MPI 标准 文档 [P15] 中 的 例子 。 

通常 情况 下 ， 相 比 于 点 对 点 的 结构 或 者 “模仿 ”同样 语义 的 简约 集合 体 的 组 合 ， 使 用 集 
合体 是 一 个 好 的 想法 (参见 图 10-15 和 图 10-16 以 及 10.4.4 节 的 相关 讨论 )。 好 的 MPI 实现 
版 本 为 集合 通信 上 的 数据 流 做 了 优化 ， 同 时 也 内 置 了 一 些 网 络 的 拓扑 结构 信息 。 
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9.2.4 非 阻塞 点 对 点 通信 


目前 为 止 所 有 提 到 的 MPI 函数 都 有 一 个 相同 的 属性 ， 即 函数 调用 只 有 在 消息 传递 得 足 
够 远 时 才 会 返回 ， 这 样 保 证 了 发 送 /接收 缓冲 区 可 以 无 顾虑 地 使 用 。 这 意味 着 ， 接 收 数据 已 
经 完全 到 达 ， 发 送 数据 也 完全 离开 了 缓冲 区 ， 因 此 可 以 安全 地 改动 缓冲 区 而 不 对 消息 造成 影 
响 。 这 在 MPI 术 语 中 称 作 阻塞 通信 。 尽 管 在 当前 的 MPI 标 准 〈 版 本 2.2 ) 中 ，MPI 的 集合 
通信 息 是 阻塞 的 ， 但 是 点 对 点 通信 是 可 以 使 用 非 阻塞 语义 执行 的 。 非 阻塞 点 对 点 调用 仅 初 
始 化 了 消息 传输 ， 然 后 立即 返回 到 用 户 代 码 。 在 一 个 高 效 的 实现 版 本 中 ， 等 待 数据 到 达 和 实 
味 的 数据 传递 在 后 台 进 行 ， 让 资源 自由 计算 ， 同步 被 移 除 (图 9-5 展示 了 非 阻 塞 调用 MPI_ 
Isend() 的 一 种 可 能 的 事件 时 间 轴 )。 换 言 之 ， 非 阻塞 MPI 是 一 种 在 高 效 实 现下 ， 通 信和 计算 
可 以 异步 执行 的 方式 。 只 要 用 户 程 序 没 被 告知 这 样 做 是 安全 的 (可 以 用 适当 的 MPI 调用 检 
验 )， 消 息 缓冲 区 就 不 能 被 使 用 。 非 阻塞 和 阻塞 MPI 调用 是 相互 兼容 的 ， 即 通过 阻塞 调用 发 
送 的 消息 能 够 被 非 阻塞 接收 所 匹配 。 


主线 程 







| 做 其 他 工作 (不 使 用 buf) 


邮件 发 送 操作 、 握 手 、 数 据 转换 a= 
时 间 


图 9-5 非 阻塞 发 送 (MPI Isend0) 的 抽象 时 间 轴 图 。 标 准 没 有 指定 是 否 有 一 个 辅助 线程 ， 全 
部 的 数据 转换 将 在 MPI_Wait() 或 任何 其 他 MPI 函数 期 间 执行 


最 重要 的 非 阻 塞 通信 和 是 MPI Isend(): 


1 <type> buf (*) 





辅助 线程 





2 integer :: count, datatype, dest, tag, comm, request, ierror 

3 call MPI_Isend (buf, ! message buffer 

4 count, ! # of items 

5 datatype, ! MPI data type 

6 dest, ! destination rank 

7 tag, ! message tag 

8 comm, ! communicator 

9 request, ! request handle (MPI_Request* in C) 
10 ierror) ! return value 


与 阻塞 发 送 相 反 ，MPI Isend0 有 一 个 额外 的 输出 参数 ， 即 请 求 句 柄 。 它 起 到 标识 符 的 
作用 ， 程 序 可 以 随后 通过 它 指定 “等 待 ” 通 信 的 请 求 (在 C 语言 中 ， 它 属于 结构 体 MPI 
Request 类 型 ) 。 相 应 地 ，MPI Irecv() 初始 化 一 个 非 阻塞 接收 ; 


1 <type> buf (x*) 
2 integer :: Count, datatype, source, tag, comm, request, ierror 
3 call MPI_Irecv (buf, message buffer 


1 
4 count, ! # of items 
5 datatype, ! MPI data type 
6 source, ! source rank 
7 tag, ! message tag 
8 comm, ! communicator 
9 request, ! request handle 
10 lerror) ! return value 


这 里 不 含有 MPI Recv() 中 存在 的 参数 对 象 status， 因 为 并 不 需要 ， 毕 竟 当 函数 调用 返 
回 到 用 户 代码 的 时 候 ， 并 没有 实际 的 通信 发 生 。 可 以 通过 函数 MPI TestO 和 MPI Wait) 来 
检验 一 个 正在 进行 中 的 通信 是 否 完成 。 前 者 仅 检验 通信 和 是否 完成 并 返回 一 个 标识 ， 后 者 将 组 
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冲 区 阻塞 直到 可 以 使 用 。 
1 logical :: flag 
2 integer :: request, status(MPI_STATUS_SIZE), ierror 
3 call MPI_Test (request, ! pending request handle 
4 flag, ! true if request complete (int* in C) 
5 status, ! status object 
6 ierror) ! return value 
7 call MPI_Wait (request, ! pending request handle 
8 status, ! status object 
9 ierror) ! return value 


仅 当 进行 中 的 通信 是 一 个 完全 被 接收 的 消息 参数 对 象 status 才 会 包含 有 用 的 信息 ( 例 
如 ， 在 MPI Test) 的 例子 中 ，flag 的 值 必 须 是 true)。 在 这 种 意义 上 ， 序 列 


1 call MPI Irecv (buf, count, datatype, source, tag, comm, & 
2 request, ierror) 
3 call MPI_Wait (request, status, ierror) 


完全 等 价 于 标准 的 MPI_Recv()。 

非 阻塞 MPI 通 信 的 一 个 潜在 的 问题 是 编译 器 没 办 法 知道 MPI_Wait() 可 以 (通常 会 ) 改 
变 buf 中 的 内 容 。 因 此 ， 下 面 的 代码 中 ， 编 译 器 会 认为 将 第 3 行 中 的 语句 移 到 MPI Wait() 
调用 之 前 是 合法 的 : 


1 call MPI_Irecv(buf, ..., request, ...) 
2 call MPI_Wait (request, status, ...) 
3 buf(1) = buf(1) + 1 


这 样 会 导致 竞争 条 件 ， 同 时 buf 中 的 内 容 可 能 是 错 的 。 通 过 请 求 句柄 处 理 的 MPI_ 
Irecv() 和 MPI_Wait() 之 间 的 内 在 联系 对 编译 副 是 不 可 见 的 ， 事实 上 ，buf 没 有 包含 在 MPI_ 
Wait) 的 参数 列表 中 就 足以 认为 代码 修改 是 合法 的 。 避 免 这 种 情况 的 一 个 简单 的 方法 是 把 
变量 (或 者 缓冲 区 ) 放 入 一 个 COMMON 块 中 ， 这 样 所 有 的 子 程 序 可 以 潜在 地 修改 它 。 参 见 
MPI 标准 [P15] 作为 备 选 。 

多 重 请 求 可 以 在 任何 时 候 等 待 ， 这 是 非 阻 塞 通信 的 又 一 个 巨大 优势 。 有 时 候 ， 一 组 请 求 
在 一 些 方面 可 以 放 在 一 起 ， 用 户 想 要 的 检验 可 能 不 是 指定 的 一 个 ， 而 可 能 是 任意 一 个 或 者 任 
意 数 量 ， 甚 至 它们 中 的 全 部 是 否 完 成 。 这 些 可 以 通过 适当 地 使 用 句柄 数组 参数 化 的 函数 调用 
来 检验 。 我 们 选用 MPI Waitall0 程序 来 作为 例子 : 


1 integer :: count, requests (+) 

2 integer :: statuses (MPI _STATUS_SIZE,*), ierror 

3 call MPI_Waitall (count, ! number of requests 

4 requests, ! request handle array 

5 statuses, ! statuses array (MPI_Status* in C) 
t ierror) ! return value 


PK 2c Val H L E r A E IT P ER E AB E Mae AP AR E, status 对 象 在 array of 
statuses(:,:) 中 可 以 使 用 。 

代码 清单 9-3 中 的 例子 可 以 通过 重 又 进程 0 上 的 局 部 积分 和 接收 其 他 进程 的 结果 来 使 用 
非 阻塞 通信 。 不 笠 的 是 ， 此 处 不 能 使 用 集合 体 ， 因 为 在 MPI 中 没有 非 阻塞 集合 体 。 代 码 清 
单 9-4 中 展示 了 一 个 可 能 的 结果 。 在 原始 代码 中 ， 归 约 操作 不 得 不 手动 完成 (代码 33 一 35 
行 )。 在 编译 时 ， 状 态 和 请 求 数组 的 大 小 是 未 知 的 ， 因 此 和 除了 0 号 进程 的 所 有 其 他 独立 
接收 缓冲 区 (代码 11 ~ 13 ) 一 样 必须 动态 分 配 。 部 分 结果 的 收集 是 通过 代码 32 行 的 单独 
MPI_Waitall() 执行 的 。MPI Send() 足以 传输 部 分 结果 (代码 39 47) 而 不 需要 在 非 根 进程 上 
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做 任何 改动 。 
非 阻塞 通信 提供 了 一 个 明显 的 方式 (如花 销 ) 来 重 侄 有 用 工作 之 间 的 通信 ， 即 开销 。 然 


而 ， 可 能 产生 的 性 能 优势 取决 于 许多 因素 ,其 至 可 能 已 不 复 存 在 (参见 10.4.3 节 )。 但 是 即 
使 没有 真正 的 重 价 ， 多 重 显著 的 非 阻 塞 请 求 也 会 提升 性 能 ， 这 是 因为 MPI 库 会 决定 它们 中 


的 哪些 会 最 先 得 到 服务 。 


O © y A a kh wu N = 


代码 清单 9-4 ”MPI 并 行 积分 程序 片段 ， 使 用 非 阻 塞 点 对 点 通信 


integer, allocatable, dimension(:,:) :: statuses 
integer, allocatable, dimension(:) :: requests 
double precision, allocatable, dimension(:) :: tmp 
call MPI_Comm_size(MPI_COMM_WORLD, size, ierror) 
call MPI_Comm rank (MPI_COMM_WORLD, rank, ierror) 


! integration limits 
a=0.d0 ; b=2.d0 ; res=0.d0 


if (rank.eq.0) then 
allocate (statuses (MPI_STATUS_SIZE, size-1)) 
allocate (requests (size-1) ) 
allocate (tmp (size-1) ) 
! pre-post nonblocking receives 
do i=1,size-1 
call MPI_Irecv(tmp(i), 1, MPI_DOUBLE_PRECISION, & 
i, 0, MPI_COMM_WORLD, & 
requests(i), ierror) 
enddo 
endif 


! limits for "me" 
mya=a+rank* (b-a) /size 
myb=mya+ (b-a) /size 


! integrate f(x) over my own chunk - actual work 
psum = integrate (mya,myb) 


! rank 0 collects partial results 
if(rank.eq.0) then 
res=psum 
call MPI_Waitall(size-1, requests, statuses, ierror) 
do i=1,size-1 
res=res+tmp (i) 
enddo 
write (*,*x) ‘Result: ’,res 
' ranks != 0 send their results to rank 0 
else 
call MPI_Send(psum, 1, & 
MPI_DOUBLE_PRECISION, 0, 0, & 
MPI_COMM WORLD, ierror) 
endif 


K 9-3 给 出 了 在 MPI F a AA A fe PL A Be AY PE A SK 


R 9-3 MPI 通信 模式 及 相关 子 程序 的 不 全 面 概述 


点 对 点 集合 
MPI Barrier () 
MPI Send () MPI _Bcast () 
y MPI Scatter ()/ 
NPI Ssend() = 
= MPI Bsend() MPI_ Gather () 
¥ MPI Reduce () 
MPI Recv() ki 
7 MPI_Reduce_scatter() 


MPI Allreduce () 
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点 对 点 集合 


MPI Isend() 

MPI Irecv() 

MPI Wait()/MPI_ Test () 
MPI Waitany() / 


非 阻塞 MPI_Testany () N/A 
MPI Waitsome () / 
MPI Testsome () 
MPI Waitall()/ 
MPI Testall () 





9.2.5 虚拟 拓扑 


在 5.2.1 节 中 ， 我 们 指出 了 区 域 分 解 的 原则 作为 数据 并 行 的 实例 。 使 用 目前 为 止 提 到 的 
MPI 函数 完全 能 够 在 分 布 式 存储 的 并 行 计 算 机 上 实现 区 域 分 解 。 然 而 ， 建 立 处 理 进程 网 格 以 
及 跟踪 哪个 进程 需要 交换 边缘 数据 却 是 不 容易 的 。 由 于 区 域 分 解 方法 的 重要 性 ， 因 此 MPI 包 
含 了 一 些 函 数 来 以 虚拟 拓扑 的 形式 支持 这 个 周期 性 任务 。 虚 拟 拓 扑 提 供 了 一 个 方便 的 进程 命 
名 方案 ， 并 且 符 合 需 要 的 通信 模式 。 此 外 ， 它 们 潜在 地 允许 MPI 库 通 过 应 用 网 络 拓扑 的 知识 
来 优化 通信 。 尽 管 可 以 用 MPI 来 描述 任意 的 图 拓扑 结构 ， 但 此 处 我 们 只 考虑 笛 卡 儿 拓 扑 。 

作为 一 个 例子 ， 假 定 有 一 个 仿真 需要 处 理 一 个 包含 3000 x 4000=1.2 x 10 "个 数据 的 大 型 
双 精 度数 组 P(1:3000,1:4000)。 仿 真 运行 在 3 x 4=12 个 进程 上 ， 数 组 在 它们 之 上 “自然 ”分 
布 ， 即 每 个 进程 持 有 一 个 1000 x 1000 大 小 的 数据 块 。 图 9-6 展示 了 反映 这 种 情况 的 一 种 可 
能 的 笛 卡 儿 拓扑 : 每 个 进程 可 以 被 它 的 进程 号 或 者 笛 卡 儿 坐 标 所 标识 。 它 有 很 多 的 邻居 节 
点 ， 这 些 节 点 的 数目 由 网 格 的 维度 决定 。 在 我 们 的 例子 中 维度 为 2， 这 导致 每 个 进程 最 多 有 
4 个 相 邻 节点 。 每 个 维度 上 的 边界 条 件 可 以 是 闭 ( 环 ) 的 或 者 开 的 。 





图 9-6 ZÆ FJL h: 12 个 进程 分 布 在 一 个 3x4 的 网 格 上 ， 且 在 网 格 的 第 二 维 上 是 周期 
性 的 ， 第 一 维度 上 并 不 是 。 图 上 标注 了 MPI 进程 号 以 及 笛 卡 儿 坐 标 


MPI 能够 帮助 在 处 理 器 网 格 中 建立 进程 号 和 笛 卡 儿 坐 标 之 间 的 映射 关系 。 首 先 ， 新 的 通 
信 空 间 必 须 定义 成 选 定 的 拓扑 结构 附着 的 地 方 。 这 通过 函数 MPI Cart create) 来 实现 : 
1 integer :: comm old, ndims, dims(*), comm cart, ierror 


2 logical :: periods(*), reorder 
3 call MPI_Cart_create (comm old, ! input communicator 
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4 ndims, ! number of dimensions 

5 dims, ! # of processes in each dim. 
6 periods, ! periodicity per dimension 

7 reorder, ! true = allow rank reordering 
8 comm_cart, ! new cartesian communicator 

9 


ierror) return value 


它 产生 一 个 新 的 “第 卡 儿 ” 通 信和 空间 comm cart， 稍 后 将 被 用 来 指 代 特 定 的 拓扑 结构 。 
periods 数组 指定 了 稍 卡 儿 坐 标 方向 是 周期 的 ; reorder 参数 为 真 时 ， 将 允许 进程 号 重 排 ， 这 
样 进 程 号 在 通信 空间 comm old 和 comm cart 中 将 会 不 同 。MPI 库 将 通过 使 用 它 关 于 网 络 
拓扑 结构 的 知识 选择 一 个 不 同 顺序 ， 同 时 期 望 下 一 个 通信 在 笛 卡 儿 拓 ’ 扑 结构 中 是 显 性 的 。 当 
然 ， 任 意 两 个 进程 在 笛 卡 儿 通 信和 空间 中 的 通信 仍然 是 允许 的 。 

这 里 并 没有 提 到 实际 问题 的 大 小 (3000 x 4000 )， 因 为 关心 数据 的 分 布 完 全 是 用 户 的 工 
YE. MPI 能 做 的 事情 就 是 记录 拓扑 的 信息 。 对 于 图 9-6 中 的 拓扑 结构 ，MPI_Cart_create() 可 
以 调用 如 下 : 


standard communicator 


call MPI_Cart_create (MPI_COMM_WORLD, 
2 two dimensions 


| 

2 r . 

3 (/ 4, 3 /), ! 4x3 grid 

4 (/ .false., .true. /), ! open/periodic 

5 .false., ! no rank reordering 

6 comm_cart, ! Cartesian communicator 


ierror) 


如 果 MPI 进程 的 数量 给 定 ， 那 么 找到 每 个 方向 上 网 格 的 最 佳 扩展 (正如 在 MPI Cart_ 
create() 中 参数 dims 需要 的 那样 ) 需要 一 些 算数 运算 ， 这 些 具 体 数据 可 以 被 印 载 到 MPI_ 
Dims create() ŽUP : 


1 integer :: nnodes, ndims, dims(x), ierror 

2 call MPI_Dims_create (nnodes, ! number of nodes in grid 

3 ndims, ! number of Cartesian dimensions 

4 dims, ! input: /=0 # nodes fixed in this dir. 
5 : ==0 # calculate # nodes 

6 ! output: number of nodes each dir. 

7 ierror) 


dims 数组 既 作 为 输入 参数 又 作为 输出 参数 : dims 中 的 每 个 输入 相当 于 一 个 笛 卡 儿 维 度 ， 
输入 为 0 表示 这 个 维度 上 MPI Dims create() 需要 计算 进程 的 数量 ; 输入 非 0 则 用 于 指定 这 
个 维度 上 进程 的 固定 数量 。 在 上 述 约束 下 ， 函 数 决定 了 一 个 平衡 的 分 布 ， 即 所 有 的 ndims 扩 
展 尽 可 能 近 的 挨 在 一 起 。 考 虑 到 通信 的 开销 ， 只 有 当 整 体 问题 的 网 格 是 立方 体 的 时 候 才 是 最 
佳 的 分 布 。 如 果 情 况 并 非 如 此 ， 则 由 用 户 负责 设 定 合适 的 约束 ， 这 是 因为 MPI 没 办 法 获知 
网 格 的 几何 形状 。 

MPI 提供 了 两 个 服务 项 数 用 来 实现 在 笛 卡 儿 进 程 坐标 和 MPI 进程 号 之 间 的 转换 。 对 于 
给 定 的 进程 号 ，MPI_Cart_ coords0) 函数 计算 相应 的 笛 卡 儿 进 程 坐标 : 


ı integer :: comm cart, rank, maxdims, coords (*), ierror 

2 call MPI Cart_ coords (comm cart, ! Cartesian communicator 

3 rank, ! process rank in comm_cart 

4 maxdims, ! length of coords array 

5 coords, ! return Cartesian coordinates 
6 ierror) 


( 如 采 在 产生 comm cart 时 进程 号 重 排 是 允许 的 ， 则 进程 应 该 总 是 先 调用 MPI_ Comm 
rank(comm_cart,……) 以 获得 它 的 进程 号 )。 输 出 数组 coords 包含 了 对 应 于 指定 进程 的 笛 卡 儿 
坐标 。 
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当 涉 及 区 域 分 解 的 时 候 ， 映 射 函数 总 是 需要 的 。 一 个 进程 从 MPI 中 获得 的 第 一 个 信息 
就 是 它 在 笛 卡 儿 空 间 中 的 进程 号 。 这 就 需要 MPI Cart _coords() 来 决定 坐标 以 便 进 程 能 够 进 
行 计算 ， 人 例如， 进程 应 该 工作 在 哪个 子 区 域 。 具 体 实例 参见 9.3 市 。 

反 向 映射 ， 即 从 笛 卡 儿 坐 标 到 MPI 进程 号 ， 通 过 MPI Cart_rank() 实现 


1 integer :: comm_cart, coords(*), rank, ierror 
2 call MPI Cart rank (comm cart, ! Cartesian communicator 
3 coords, ! Cartesian process coordinates 


4 rank, ! return process rank in comm cart 
5 ierror) 


一 个 典型 的 区 域 分 解 任 务 是 找 出 在 特定 的 笛 卡 儿 维 度 上 给 定 进程 的 相 邻 进程 。 原 则 上 ， 
用 户 可 以 从 稍 卡 儿 坐 标 开始 ， 通 过 调用 MPI Cart rank) 一 个 接 一 个 地 (考虑 开启 或 者 关闭 
边界 条 件 ) 将 结果 映射 到 MPI 进程 号 。 所 有 这 些 任务 ，MPI Cart _ shift() 可 以 一 步 完 成 : 


ı integer :: comm_cart, direction, disp, rank_source, 

2 integer :: rank_dest, ierror 

3 call MPI Cart shift (comm cart, ! Cartesian communicator 
direction, ! direction of shift (0..ndims-1) 


l 
4 ! 
5 disp, ! displacement 

6 rank_source, ! return source rank 

7 rank_dest, ! return destination rank 
8 ierror) 


参数 direction 指定 转换 应 该 执行 在 哪个 笛 卡 儿 维 度 上 ，disp 决定 距离 和 方向 ( 正 或 负 )。 
rank source 和 rank dest 返回 由 其 他 参数 确定 的 
相 邻 进程 号 。 图 9-7 展示 了 一 个 在 第 一 维度 上 人 负 
方 问 的 转换 ， 它 执行 在 图 9-6 中 给 定 拓扑 结构 的 
进程 4 上 。 源 和 目标 “邻居 ”的 进程 号 分 别 是 7 
和 1。 如 果 由 于 相 邻 节点 的 扩展 超过 了 在 非 环 形 
维度 上 的 网 格 边界 而 导致 “ 邻 届 ”不 存在 ， 则 进 
程 会 返回 特殊 值 MPI PROC NULL， 使 用 MPI 
PROC_NULL 作为 源 或 者 目标 进程 号 在 任何 通 
信 调 用 中 都 是 允许 的 ， 它 会 对 这 个 调用 反馈 一 个 
空 语句 ， 即 不 会 发 生 任何 实际 的 通信 。 这 样 可 以 
使 编程 变 得 简单 ， 因 为 网 格 的 边界 不 需要 作为 特 
殊 情 况 来 专门 对 待 (参见 9.3 市 中 的 例子 )。 


93 ”实例 : Jacobi 解法 器 的 MPI 并 行 


我 们 用 一 个 简单 的 三 维 Jacobi 解法 器 ( 见 3.3 节 和 6.2 节 ) 作为 一 个 虚拟 拓扑 和 其 他 
MPI 函数 的 非 对 称 例 子 。 与 使 用 插入 一 组 指导 语句 以 实现 并 行 化 的 OpenMP 相反 ， 使 用 区 
域 分 解 的 MPI 并 行 化 更 加 复杂 。 





图 9-7 MPI Cart shift) 作 用 在 图 9-6 一 部 
分 拓扑 结构 中 的 结果 。 通 过 进程 4 来 执行 ， 
direction=0, disp=—1, 函数 返回 rank_source=7 
及 rank dest=1 


9.3.1 MPI 实现 


尽管 在 5.2.1 节 中 我 们 已 经 给 出 了 基本 算法 ,但 这 里 我 们 仍 需 要 更 多 的 细节 。 图 9-8 展 
未 了 一 个 注解 流程 图 。 中 心 部 分 仍 是 扫描 所 有 的 子 区 域 (步骤 3 )， 这 是 主要 的 计算 部 分 。 然 
而 每 个 子 区 域 被 不 同 的 MPI 进程 所 处 理 ， 因 而 面临 着 两 个 困难 : 

1 ) 收敛 条 件 依赖 于 所 有 网 格 单元 的 当前 以 及 下 一 个 时 间 步 长 之 间 的 最 大 偏差 。 对 于 每 
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个 子 区 域 ， 这 个 值 很 容易 分 别 得 到 ， 但 是 归 约 需要 得 到 一 个 全 局 的 最 大 值 。 

2) 为 了 在 子 区 域 上 扫描 产生 正确 的 结果 ， 必 须 实现 恰当 的 边界 条 件 。 这 对 于 位 于 实际 
边界 附近 的 网 格 单元 是 没有 问题 的 ， 但 是 对 于 毗邻 区 域 分 割 处 的 网 格 单元 ,边界 条 件 随 着 一 
次 次 扫描 而 改变 : 这 个 边界 被 位 于 分 割 边界 右边 的 单元 所 包括 ， 而 这 些 单 元 由 于 被 别 的 MPI 
进程 拥有 而 不 能 直接 访问 。( 在 OpenMP 中 ， 所 有 数据 总 是 对 全 部 线程 可 见 ， 这 使 得 跨 “ 块 
边界 ”的 访问 变 得 微不足道 。) 

在 每 个 进程 已 经 在 自己 的 区 域内 获得 了 最 大 的 偏差 maxdelta 之 后 ， 第 一 个 问题 通过 
MPI_Allreduce() 调用 百 接 解决 了 《图 9-8 中 的 步骤 4 )。 

至 于 第 二 个 问题 ， 所 谓 的 ghost 或 者 halo 层 被 用 来 存储 相 邻 区 域 的 边界 信息 的 副本 。 由 
于 对 于 每 次 区 域 分 解 ， 每 个 子 区 域 仅 需要 一 个 ghost 层 ， 故 不 需要 申请 额外 的 内 存 ， 这 是 因 
为 可 以 利用 存储 边界 层 的 空间 。( 然 而 下 面 我 们 将 看 到 ， 由 于 一 些 技巧 的 原因 可 能 会 需要 一 
些 额外 的 数组 。) 在 执行 从 7=0 到 7=1 时 刻 数据 更 新 的 进程 扫描 自己 的 子 区 域 之 前 ，7=0 时 
刻 进程 通过 MPI 从 它 的 相 邻 单元 获得 边界 值 并 将 其 存储 在 ghost 单元 中 (图 9-8 中 的 步骤 
2 )。 下 面 我 们 将 会 概述 用 Fortran 实现 这 个 算法 的 核心 部 分 。 完 整 的 代码 可 以 从 本 书 的 网 站 
上 下 载 9。 为 清楚 起 见 ， 我 们 将 会 使 用 代码 片段 来 阐明 一 些 重要 的 变量 。 


初始 化 网 格 和 边界 CA) 
BAH © 


扫描 子 区 域 © 





MPI Allreduce (MPI IN PLACE,) 
计算 全 局 最 大 偏差 © maxdelta,..., 


交换 网 格 © 


图 9-8 分 布 式 存储 Jacobi 算法 并 行 化 的 流程 图 ， 阴 影 单元 代表 ghost 层 , 黑色 单元 代表 在 T= 
时 刻 的 网 格 已 经 更 新 过 ， 浅 色 单 元 代表 7=0 时 刻 的 数据 。 白 色 单 元 代表 整体 网 格 上 的 
真实 边界 ， 黑 色 单 元 表示 未 被 使 用 的 边界 


http://www.hpc.rrze.uni-erlangen.de/HPC4SE/, 
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首先 0 号 进程 从 标准 的 输入 读 人 所 需 的 参数 (下 述 代码 的 第 10 行 ) : 在 所 有 维度 上 问题 
的 大 小 (spat dim)、 可 能 使 用 的 进程 数目 的 预 置 (proc_dim) 以 及 频率 (pbc_check)。 


© > “y DUA mw ho 一 


logical, dimension(1:3) :: Pbc_check 
integer, dimension(1:3) :: spat_dim, proc_dim 


call MPI_Comm_rank (MPI_COMM_WORLD, myid, ierr) 
call MPI _Comm_size(MPI_COMM_WORLD, numprocs, ierr) 


if (myid.eq.0) then 
write(*,*) ' spat_dim , proc_dim, PBC ? ’ 
do i=1,3 
read(*,*) spat_dim(i), proc_dim(i), pbc_check (i) 
enddo 
endif 


MPI_INTEGER, 0, MPI_COMM_WORLD, ierr) 
MPI_COMM_WORLD, ierr) 
MPI_COMM_WORLD, ierr) 


call MPI Bcast (spat_dim , 3, 
call MPI Bcast (proc_dim , 3, MPI_INTEGER, 0, 
call MPI Bcast (pbc_check, 3, MPI_LOGICAL, 0, 


尽管 许多 的 MPI 实现 版 本 有 选项 来 允许 进程 0 的 标准 输入 对 所 有 进程 可 见 ， 但 一 个 可 移 
植 的 MPI 程序 不 能 依赖 于 这 个 特征 ， 因 而 进程 0 必须 将 这 些 数据 广播 出 去 (代码 第 14 一 16 
行 )。 之 后 ， 第 卡 儿 拓扑 才能 够 使 用 MPI Dims create() 和 MPI Cart create() 来 建立 : 


] 

2 

3 
4 
5 
6 
7 
8 
9 


call MPI_Dims_create(numprocs, 3, proc_dim, ierr) 


r 


if (myid.eq.0) write(*,’ (a,3(i3,x))’) ‘Grid: %, & 
(proc_dim(i),i=1, 3) 


1 reorder = .true. 

call MPI Cart create (MPI_COMM_WORLD, 3, proc_dim, pbc_check, & 
l_reorder, GRID_COMM_WORLD, ierr) 

if (GRID COMM WORLD .eq. MPI_COMM NULL) goto 999 


call MPI_Comm_rank (GRID COMM WORLD, myid_grid, ierr) 
call MPI_Comm_size(GRID_COMM_WORLD, nump_grid, ierr) 


因为 允许 进程 重 排 (代码 第 6 行 )， 必 须 再 次 调用 MPI Comm rank() 重新 获得 进程 
号 (代码 第 12 行 )。 此 外 ， 新 的 箔 卡 儿 通信 空间 GRID_COMM_WORLD 可 能 会 比 MPI_ 
COMM_WORLD 要 小 。 余 下 的 进程 接收 通信 器 值 MPI COMM_NULL， 同 时 被 发 送 到 一 个 


栅栏 以 等 待 全 部 的 并 行程 序 完 成 (代码 第 10 47). 
现在 拓扑 结构 已 经 建立 完成 ， 局 部 子 区 域 可 以 被 建立 ， 包 括 内 存 申 请 : 


| 
2 
3 
4 
5 
6 
7 
8 
9 


integer, dimension(1:3) :: loca_dim, mycoord 


call MPI_Cart_coords (GRID_COMM_WORLD, myid_grid, 3, 
mycoord,ierr) 


do i=1,3 
loca_dim(i) = spat_dim(i) /proc_dim(i) 
if(mycoord(i) < mod(spat_dim(i),proc_dim(i))) then 

local _dim(i) = loca dim(i)+1 

endif 

enddo 

iStart = 0 ; iEnd = loca dim(3)+1 

jStart = 0 ; jEnd = loca_dim(2)+1 

kStart = 0 ; kEnd = loca_dim(l1)+1 


allocate (phi(iStart:iEnd, jStart:jEnd, kStart:kEnd,0:1)) 
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使 用 数组 mycoord 存储 代码 3 行 中 调用 MPI Cart_coords() 获得 的 进程 笛 卡 儿 坐 标 。 数 
组 loca_dim 维护 进程 子 区 域 在 三 维 空间 的 扩展 。 这 些 数值 由 代码 6 ~ 11 行 计 算得 出 。 代 码 
17 行 执行 内 存 申 请 ， 在 所 有 的 方向 考虑 了 一 个 额外 的 层 ， 该 层 用 于 在 需要 时 存储 边界 值 或 
者 晕 环 值 。 为 了 简便 起 见 ， 这 里 我 们 省 略 了 数组 的 初始 化 以 及 外 层 网 格 边界 。 

用 于 ghost 层 交 换 的 点 对 点 通信 需要 连续 的 消息 缓冲 区 。( 事 实 上， 这 里 会 有 一 个 选项 用 
于 选择 使 用 导出 的 MPI 数据 类 型 ， 但 这 将 超出 本 书 的 介绍 范围 。) 然而 ， 只 有 那些 在 中 间 维 
RE (i) 连续 的 边界 单元 在 内 存 中 也 是 连续 分 布 的 。 在 任意 i-j、i-k 及 jk 平面 上 的 完整 的 层 
均 是 不 连续 的 ， 因 此 必须 使 用 一 个 中 间 缓 冲 区 收集 需要 通信 到 相 邻 ghost 层 的 边界 数据 。 发 
送 每 个 连续 的 块 作为 独立 的 消息 是 毫 无 可 能 的 ， 因 为 这 样 会 使 网 络 溢出 短 消 息 ， 同 时 每 个 请 
求 的 延迟 也 要 被 容忍 (关于 优化 MPI 通信 的 更 多 信息 详 见 第 10 章 )。 

在 每 个 进程 上 ， 我 们 使 用 两 个 中 间 缓 冲 区 ， 一 个 用 于 发 送 ， 另 一 个 用 于 接收 。 由 于 晤 环 
数据 的 数量 在 不 同 的 笛 卡 儿 方 同上 可 以 是 不 同 的 ， 因 此 中 间 组 冲 区 的 大 小 必须 选取 为 可 以 容 
纳 可 能 产生 的 最 大 学 环 : 


ı integer, dimension(1:3) :: totmsgsize 

2 

! j-k plane 

totmsgsize(3) = loca_dim(1) *loca_dim(2) 
MaxBufLen=max (MaxBufLen, totmsgsize (3) ) 
! i-k plane 

totmsgsize(2) = loca_dim(1)*loca_dim(3) 
MaxBufLen=max (MaxBufLen, totmsgsize (2) ) 
9 ! i-j plane 

I0 totmsgsize(1) = loca_dim(2) *loca_dim(3) 
1 MaxBufLen=max (MaxBufLen, totmsgsize (1) ) 


aon“ Oo uU Aa u 


3 allocate (fieldSend (1 :MaxBufLen)) 
14 allocate (fieldRecv (1:MaxBufLen) ) 


与 此 同时 ， 三 个 方向 上 的 学 环 大 小 被 存储 在 了 整数 数组 totmsgsize 中 。 
现在 ,我们 开始 实现 主要 的 迭代 循环 ,循环 的 次 数 为 最 大 的 迭代 (扫描 ) 数 ITERMAX: 


1 t0=0 ; tl=1 


2 tag = 0 
do iter = 1, ITERMAX 
do disp = -l, 1, 2 


do dir = 1, 3 


call MPI_Cart_shift (GRID COMM WORLD, (dir-1), & 
disp, source, dest, ierr) 


10 if(source /= MPI_PROC_NULL) then 
1 call MPI_Irecv(fieldRecv(1), totmsgsize(dir), & 
12 MPI_DOUBLE_PRECISION, source, & 


13 tag, GRID_COMM WORLD, req(1), ierr) 

14 endif ! source exists 

15 

16 if(dest /= MPI_PROC_NULL) then 

17 call CopySendBuf (phi (iStart, jStart, kStart, t0), & 
18 iStart, iEnd, jStart, jEnd, kStart, kEnd, & 
19 disp, dir, fieldSend, MaxBufLen) 

20 . 

21 call MPI_Send(fieldSend(1), totmsgsize (dir), & 

22 MPI_DOUBLE_PRECISION, dest, tag, & 

23 GRID_COMM_WORLD, ierr) 


24 endif ' destination exists 
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26 if (source /= MPI_PROC_NULL) then 

27 call MPI Wait (req, status, ierr) 

28 

29 call CopyRecvBuf (phi (iStart, jStart, kStart, t0), & 
30 iStart, iEnd, jStart, jEnd, kStart, kEnd, & 
3 disp, dir, fieldRecv, MaxBufLen) 

32 endif ! source exists : 

33 

34 enddo ! dir 

35 enddo ! disp 

36 

37 call Jacobi_sweep (loca_dim(1), loca_dim(2), loca_dim(3), & 
38 phi (iStart, jStart, kStart, 0), t0, tl, & 
39 maxdelta) 

40 

41 call MPI_Allreduce(MPI_IN_PLACE, maxdelta, 1, & 

42 MPI DOUBLE PRECISION, & 

43 MPI MAX, 0, GRID COMM WORLD, ierr) 

44 if (maxdelta<eps) exit 

45 tmp=t0; t0=t1; tl=tmp 

4 enddo ! iter 


47 
48 999 continue 


学 环 的 交换 分 成 6 步 完 成 ， 如 各 自在 每 个 正 、 负 笛 卡 儿 方 向 上 。 通 过 循环 变量 disp 和 
dir 实现 参数 化 。 代 码 7 行 ， 调 用 MPI Cart shift() 来 决定 在 当前 方向 ( 源 和 目的 ) 上 的 通信 
邻居 。 如 果子 区 域 位 于 网 格 的 边界 ， 同 时 周期 边界 条 件 未 知 ， 则 邻居 节点 将 被 告知 进程 号 为 
MPI PROC NULL。 使 用 这 个 进程 号 作为 源 或 者 目的 的 MPI 调用 将 会 立即 返回 。 然 而 在 这 
个 例子 中 为 了 效率 起 见 ， 复 制 到 中 间 缓 冲 区 以 及 从 中 间 缓 冲 区 复制 应 该 被 避免 。 我 们 屏蔽 了 
任何 的 MPI 调用 ， 保 证 通信 开销 最 低 (代码 10、16 及 26 行 )。 

沿 着 一 个 方向 上 的 通信 模式 实际 上 是 一 个 环形 转换 (或 者 开 边 界 条 件 下 的 线性 转换 )。 
本 质 上 是 一 个 阻塞 点 对 点 通信 的 环形 转换 在 9.2.2 节 中 已 经 讨论 过 。 为 了 避免 死 锁 同时 尽 
可 能 地 利用 已 有 的 网 络 带宽 ， 在 其 他 任何 事情 开始 前 ， 先 初始 化 一 个 非 阻 塞 接收 (代码 11 
行 )。 这 个 数据 传输 可 以 潜在 地 掩盖 随后 通过 调用 子 程序 CopySendBufgO 完成 的 到 中 间 发 送 
缓冲 区 的 尝 环 数据 拷贝 (代码 17 行 )。 在 发 送 坚 环 数据 (代码 21 行 ) 以 及 等 待 之 前 的 非 阻塞 
接收 完成 后 (代码 27 47), CopyRecvBuf() 最 后 将 接收 的 尝 环 数据 拷贝 到 边界 层 (代码 29 77), 
从 而 完成 了 在 一 个 特定 方向 上 的 通信 环 。 图 9-9 再 一 次 阐明 了 整个 过 程 。 


MPI Irecv()/ 





MPI Send() | MPI wait () i 
copySendBuf () | CopyRecvBuf () 


图 9-9 Jacobi HIRE ATA RIL Se fs (图 例 展示 的 是 二 维 情 况 )。 阴 影 单元 格 
为 ghost 层 ,标记 “R”(“S”) 的 单元 格 属于 中 间接 收 (发 送 ) 缓冲 区 。 后 者 在 所 有 
的 方向 上 被 重复 使 用 。 注 意 尝 环 总 是 提供 给 向 上 读 取 (不 写 人 ) 的 网 格 。 为 简洁 起 见 ， 
省 略 固定 边界 的 单元 
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E 6HR RMS, SAMS phi(:,:,:,00) 的 边界 被 更 新 ， 同 时 完成 了 在 局 部 子 
sweep() 返回 子 区 域 上 前 一 个 时 间 步 和 当前 时 间 步 的 最 大 偏差 (一 种 2D 情况 下 的 可 能 实现 
请 参看 代码 清单 6-5 )。 随 后 的 MPI Allreduce()( 代码 41 行 ) 计 算 了 全 局 最 大 值 并 且 使 它 
全 局 可 用 ， 这 样 在 所 有 进程 上 无 需 更 多 通信 就 可 以 决定 是 否 由 于 到 达 收 敛 条 件 而 停止 循环 
和 迭代。 


9.3.2 性 能 特征 


MPI- 并 行 Jacobi 解法 器 的 性 能 特点 对 于 很 多 区 域 分 解 代 码 都 是 典型 的 。 我 们 区 分 对 待 
强 弱 尺度 场景 ， 因 为 它们 展示 了 相当 不 同 的 特征 。 所 有 的 基准 测试 执行 在 两 个 不 同 的 互联 网 
2% (Intel MPI 版 本 3.2 上 DDR 高 速 互联 与 千 兆 位 以 太 网 ) 和 一 个 基于 Intel Xeon 3070 处 理 
器 、 主 频 2.66GHz 的 单 权 节点 的 商用 集群 上 上。 为 了 得 到 一 个 简单 的 太 度 基准 同时 最 小 化 内 
点 影响 ， 在 每 个 节点 上 始终 只 用 一 个 进程 。 

1. 弱 扩展 

在 5.3.6 节 中 我 们 的 性 能 模型 假定 弱 尺 度 的 3D 区域 分 解 具有 不 变 的 通信 开销 。 然 而 这 
也 不 总 是 正确 的 ， 因 为 位 于 网 格 边 界 的 子 区 域 可 能 需要 通信 的 尝 环 会 更 少 。 夷 运 的 是 ， 由 于 
子 区 域 间 内 在 的 同步 机 制 ， 并 行程 序 的 整体 运行 时 间 主 要 受 限于 最 慢 的 进程 ， 也 就 是 在 子 区 
域 等 大 小 情况 下 拥有 最 大 数量 尝 环 的 进程 。 因 此 ， 我 们 可 以 合理 地 预测 线性 扩展 行为 甚至 是 
在 很 慢 〈 非 阻塞 ) 的 网 络 上 ， 因 为 至 少 有 一 个 子 区 域 会 在 各 个 笛 卡 儿 方 向 上 都 被 其 他 子 区 域 
所 环绕 。 图 9-10 展示 的 大 小 为 120 的 常数 子 区 域 弱 扩 展 数据 证 实 了 这 个 猜想 。 
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图 9-10 EI: 问题 规模 为 120 每 进程 的 MPI- 并 行 三 维 Jacobi 代码 弱 尺 度 对 比 一 一 高 速 互 
联 与 千 兆 位 以 太 网 。 每 个 节点 运行 一 个 进程 。 区 域 分 解 拓扑 (每 个 笛 卡 儿 方 向 上 的 进 
ERO 也 在 图 中 进行 了 标注 。 弱 尺度 性 能 模型 (“X”) 能 很 好 地 重 现 GigE 数据 。 插 
图 : 理想 尺度 性 能 和 千 兆 位 以 太 网 相 比 于 进程 数目 的 比率 (基于 Intel Xeon3070、 主 
Wi 2.66GHz 的 单 套 集群 ，Intel MPI 3.2 的 单 槽 集群 ) 
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在 高 速 互 联网 络 上 的 可 扩展 性 近乎 完美 。 对 于 千 兆 位 以 太 网 ， 在 节点 数目 很 大 的 情况 下 
通信 仍然 消耗 了 大 约 40% 的 整体 运行 时 间 ， 但 当 运 行 在 少量 节点 上 时 这 个 影响 则 变 得 很 小 。 
事实 上 ， 人 性 能 图 展示 了 一 个 奇怪 的 “缺口 ”结构 ， 人 性 能 提升 在 进程 数 为 4 和 8 时 有 少量 的 
下 降 。 这 些 下 降 源 于 通信 特征 的 基本 改变 ， 这 个 改变 产生 在 任何 坐标 方向 上 的 子 区 域 的 数 
量 从 一 个 变 为 多 个 的 情况 下 。 在 那 一 点 ， 开 始 设 置 沿 着 这 个 轴线 的 节点 间 通 信 : 由 于 是 周 
期 边界 条 件 ， 每 个 进程 总 是 在 所 有 的 方向 上 进行 通信 ， 但 是 如 果 在 一 个 特定 的 方 品 上 只 有 
一 个 进程 ， 它 将 使 用 (快速) 共享 内 存 与 自己 交换 学 环 数据 。 图 9-10 中 的 插图 指示 了 理想 
扩展 与 千 兆 位 以 太 网 性 能 数据 之 间 的 比率 。 很 明显 ， 比 率 随 着 新 方向 的 切 人 而 增 大 。 这 发 
生 在 分 解 方案 (2,1,1 )、( 2,2,1 ) WR (2,2,2 )， 分 别 属 于 节点 数 2、4、8。 在 这 些 点 之 间 ， 
比率 都 是 常数 。 同 时 假定 网 络 是 非 阻 塞 的 ， 由 于 只 有 三 个 笛 卡 儿 方 向 ， 因 此 即使 在 很 多 节 
点 数目 的 情况 下 也 可 以 预料 到 比率 不 会 超过 1.6。 同 样 的 现象 也 可 以 在 极速 互联 数据 上 观测 
到 ， 但 是 这 个 影响 由 于 这 种 网 络 更 大 的 带宽 ( x 10 ) 和 更 低 的 延迟 (/20 ) 而 很 少 被 提 及 。 
注意 ， 尽 管 我 们 用 了 一 个 只 与 程序 的 并 行 部 分 有 关 的 性 能 度量 标准 ， 但 5.3.3 节 中 提 到 的 
“ 假 ” 弱 扩展 的 考虑 在 此 处 并 不 适用 ; 单 CPU 的 性 能 与 STREAM 基准 测试 处 于 同等 水 平 
(参见 3.3 节 )。 

事实 上 对 于 一 个 定量 的 描述 ， 上 面 提 到 的 通信 模型 已 经 足够 好 了 。 我 们 假设 点 对 点 消 
息 传递 的 基本 性 能 特征 可 以 通过 沿 着 图 4-10 中 线条 的 一 个 简单 延迟 / 带宽 模型 描述 。 然 而 ， 
由 于 在 每 个 MPI 进程 上 发 送 和 接收 举 环 数据 可 以 在 6 个 箔 卡 儿 方向 上 的 每 个 方向 重 又 ， 所 
以 我 们 必须 包括 一 个 最 大 的 带宽 数 用 于 单 链 路 上 的 全 双 工 数据 传输 。( 半 双 工 ) 乒乓 基准 测 
试 对 于 获得 全 双 工 带宽 的 合理 估计 是 不 够 精确 的 ， 尽 管 大 多 数 网 络 (包括 以 太 网 ) 声称 支持 
全 双 工 。 千 兆 位 以 太 网 用 在 Jacobi 基准 测试 上 可 以 实现 半 双 工 通信 111MB/s， 全 双 工 通信 
170MB/s， 延 迟 为 50 ps. 

子 区 域 的 大 小 同样 与 进程 数 无 关 ， 因 此 对 于 在 一 次 Jacobi 扫描 中 所 有 单元 更 新 的 原始 计 
算 时 间 7 也 是 和 常数。 然而 ， 通 信和 时间 7. 依赖 于 导致 节点 间 的 区 域 切 分 数量 和 大 小 ， 同 时 我 
们 假定 进程 和 它 自身 发 生 的 复制 到 或 者 来 自 中 间 缓 冲 区 的 数据 复制 和 通信 没有 任何 开销 。 对 
于 进程 数 为 N=N.N,N:， 总 计 LN 个 网 格 点 的 特殊 问题 大 小 (使 用 四 个 立方 体 子 区域 )， 其 性 
能 计算 公式 为 

下 LN 


PIL, N) 


pan (9-1) 
TALHE, N ) 


其 中 


c(h. WN ) 
TL. N ye AKT (9-2) 





这 里 ，c (L, N) 表示 在 一 个 节点 的 网 络 链 路 上 双向 传输 的 最 大 数据 容量 ，B 为 全 双 工 
带宽 , 上 为 (在 所 有 子 区 域 上 ) 进程 数 多 余 一 个 的 坐标 方向 的 最 大 值 。c (L, W) 可 以 由 笛 卡 
儿 分 解 导 出 : 

cL, N )=L?-k-2-8 (9-3 ) 


取 KL=120， 可 以 得 到 下 面 的 数值 : 
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P, (L) 为 在 一 个 大 小 为 L 的 区 域 上 测 得 的 单 处 理 器 性 能 。 对 于 POL, N) 的 预测 位 于 
表格 的 第 三 列 ， 表 格 的 最 后 一 列 量化 了 相对 于 理想 扩展 的 “减速 因子 ”。 这 两 列 数据 用 于 分 
别 与 图 9-10 中 的 主 图 和 插图 得 出 的 测量 数据 进行 比较 。 很 明显 ， 这 个 模型 可 以 很 好 地 描述 
弱 扩 展 的 性 能 特征 ， 它 表明 我 们 通常 的 通信 概念 相 比 于 计算 “流程 ”是 正确 的 。 为 了 突出 通 
信和 的 重要 性 ， 这 里 我 们 故意 选择 了 一 个 小 规模 的 问题 ， 但 是 延迟 的 影响 也 同样 是 次 要 的 。 

2. 强 扩展 

图 9-11 展示 了 在 两 个 不 同 问题 大 小 ( 120 5 480°) 上 周期 边 值 条 件 的 强 扩展 性 能 数据 。 
可 以 看 出 ， 独 立 于 互联 ， 即 使 在 只 有 一 个 处 理 器 的 情况 下 小 规模 的 问题 也 会 有 一 些 性 能 的 缺 
失 (大约 10%)。 对 于 高 速 互 联 ， 两 种 大 小 不 同 的 问题 的 性 能 间隙 的 产生 主要 由 于 不 同 的 子 
区 域 大 小 。 对 于 这 种 网 络 ， 考 虑 到 节点 数目 ， 通 信 在 可 扩展 性 上 的 影响 是 次 要 的 。 然 而 对 
于 干粮 以 太 网 ， 小 问题 的 扩展 性 明显 变 差 是 由 于 尝 环 数据 的 体积 (以 及 延迟 开销 ) 占 所 有 工 
作 量 的 比率 随 着 节点 增多 而 变 大 ， 导 致 在 这 个 慢 网 络 上 通信 和 掌控 了 性 能 。 扩 展 曲 线 中 的 典 
型 “锯齿 ”模式 随 进程 数 的 变化 与 通信 体积 的 改变 是 又 加 的 。 这 里 使 用 和 弱 扩展 一 样 的 简单 
预测 模型 是 不 够 的 ; 尤其 在 小 规模 的 网 格 上 ， 强 扩展 对 于 子 区域 大 小 上 的 单 进程 性 能 具有 很 
强 依赖 性 ， 同 时 内 点 通信 ( 坚 环 数据 交换 ) 的 进程 变 得 很 重要 。 更 多 的 讨论 参见 习题 9.4 及 
10.4.1 节 。 
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图 9-11 问题 规模 分 别 为 120 (圆圈 ) 和 480° (方块 ) 的 MPI 三 维 Jacobi 代码 在 IB (实心 符号 ) 
网 络 和 GigE (空心 符号 ) 网 络 上 的 强 扩 展 性 对 比 。 每 个 节点 只 发 起 一 个 进程 (与 
图 9-10 中 使 用 同样 的 系统 和 MPI 拓扑 结构 ) 


注意 按照 当前 并 行 系统 的 惯例 ， 在 处 理 单 节点 上 多 MPI 进程 的 问题 时 类 似 的 分 析 必 须 
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170 HOF 


精确 (参考 4.4 节 )。 尤 其 在 快速 网 络 上 ， 内 点 通信 特征 起 主要 作用 (细节 详 见 10.5 市 )。 此 
外 ， 在 一 个 进程 内 从 中 间 缓 冲 区 复制 数据 和 将 数据 复制 到 中 间 缓 冲 区 亦 不 可 忽视 。 


习题 


9.1 


9.2 


ES 


9.4 


9.5 


转换 和 死 锁 。 图 9-2 中 展示 了 由 环形 转换 引起 死 锁 的 补救 方法 〈 交 换 发 送 /接收 顺序 )， 请 问 这 种 
解决 方法 对 于 进程 数 为 奇数 的 情况 是 否 也 管用 ? 如 果 链 条 是 开 的 ， 即 进程 0 不 与 拥有 最 大 进程 号 
的 进程 通信 ， 会 发 生 什么 ”在 这 种 情况 下 ， 重 排序 发 送 和 接收 进程 会 有 很 大 影响 吗 ? 

死 锁 及 非 阻塞 MPI。 为 了 避免 死 锁 ， 在 MPI- 并 行 Jacobi 代码 中 我 们 使 用 非 阻 塞 接 收 处 理 晕 环 数 
据 交 换 ( 见 9.3.1 节 )。 实 际 上 ，MPI 的 实现 没有 要 求 必须 支持 通信 与 计算 的 重 倒 ; MPI 的 进展 ， 
例如 真实 数据 传输 ， 很 可 能 只 在 MPI 库 代 码 执 行 的 时 候 发 生 。 在 这 种 条 件 下 ， 还 能 保证 死 锁 不 
会 发 生 吗 ? 如 有 疑问 ， 请 参阅 MPI 标准 。 

开 边 界 条 件 。9.3.2 节 中 的 Jacobi 代码 的 弱 扩 展 性 能 模型 假定 问题 具有 周期 边界 条 件 。 对 于 开 边 
界 条 件 ( 狄 利克 雷 类 型 ) 模型 会 怎样 变化 ?图 9-10 中 的 插图 还 会 有 一 个 停滞 期 吗 ? 进程 由 12 个 
增 至 16 个 时 会 发 生 什么 变化 ?理想 和 真实 性 能 比 达到 最 大 时 的 最 小 进程 数 是 多 少 ? 

并 行 Jacobi 代码 的 强 扩 展 性 能 模型 。 正 如 9.3.2 节 中 提 到 的 那样 ， 精 确 预 测 MPI- 并 行 Jacobi ft 
码 强 扩展 行为 的 性 能 模型 要 比 弱 扩展 模型 复杂 。 尤 其 在 子 区 域 大 小 上 对 单 进程 性 能 的 依赖 性 很 难 
被 预测 ， 这 是 因为 它 取 决 于 很 多 因素 (流水 线 作 用 、 预 取 、 空 间 阻塞 策略 、 到 中 间 缓 冲 区 的 复制 
等 )。 这 对 于 弱 扩 展 模 型 不 成 问题 ， 因 为 它 拥有 固定 的 子 区 域 大 小 。 然 而 ， 人 们 可 以 通过 测量 在 
所 有 子 区 域 大 小 上 并 行 运行 的 单 进程 性 能 来 尝试 建立 一 个 部 分 “现象 ”模型 ， 并 以 此 为 基准 建立 
并 行 性 能 预测 的 标准 。 对 于 弱 扩 展 模 型 ， 你 认为 还 有 哪些 方面 需要 增强 ? 考虑 随 着 NN 的 增长 T 
逐渐 变 小 ， 并 且 晕 环 交 换 不 只 发 生 在 正在 进行 的 节点 间 通 信 上 。 

MPT 正 确 性 。 下 面 的 MPI 程序 片 段 正确 吗 ? 假定 只 有 两 个 进程 正在 运行 且 my _rank 包含 了 每 个 
进程 的 进程 号 。 


1 if (my_rank.eq.0) then 
call MPI_Bcast (bufl, count, type, 0, comm, ierr) 
call MPI_Send(buf2, count, type, 1, tag, comm, ierr) 


3 

4 else 

5 call MPI_Recv(buf2, count, type, 0, tag, comm, status, ierr) 
6 call MPI_Bcast (bufl, count, type, 0, comm, ierr) 

7 endif 


(例子 来 源 于 MPI 2.2 标准 文档 [P15]。) 
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很 多 MPI 代码 中 隐藏 着 大 量 的 优化 潜能 。 在 利用 第 2、3 章 提 到 的 方法 确保 单 进 程 性 能 
接近 最 优 之 后 ， 一 个 MPI 程序 应 该 通过 基准 测试 来 衡量 它 的 性 能 及 可 扩展 性 以 揭露 与 并 行 
化 相关 的 任何 问题 。 它 们 中 的 一 些 与 消息 传递 或 者 MPI 目 身 无 关 ， 或 产生 目 众 所 周知 的 一 
般 性 问题 ， 如 顺序 执行 (Amdahl EE) 负载 失衡 、 不 必要 的 同步 以 及 其 他 所 有 影响 并 行 编 
程 模型 的 作用 。 然 而 ， 也 有 一 些 特定 问题 与 MPI 息息相关 ， 它 们 中 的 很 多 由 隐 式 的 关于 分 
布 式 存储 并 行 化 的 不 合理 假设 或 者 对 于 通信 的 成 本 和 副作用 的 过 度 乐 观 而 引起 。 用 户 需 要 牢 
记 一 点 ， 尽 管 MPI 被 设计 为 提供 可 移植 同时 高 效 的 消息 传递 函数 ,但 是 给 定 代 码 在 不 同 平 
台 之 间 的 性 能 是 不 可 移植 的 。 

本 章 尝试 概述 与 高 效 MPI 编程 最 相关 的 指南 ， 这 对 于 所 有 平台 及 MPI 实现 都 具有 不 同 
程度 的 益处 。 由 于 每 个 算法 的 独特 性 ， 这 样 的 一 个 概述 必然 是 不 完整 的 。 和 先前 有 关 优 化 的 
章节 一 样 ， 我们 从 对 一 个 典型 的 分 析 工 具 的 介绍 开始 ， 它 能 够 检测 出 消息 传递 程序 中 的 并 行 
性 能 问题 。 


10.1 MPI 性 能 工具 


与 串 行 编程 不 同 ， 通 过 简单 地 查找 手册 通常 不 可 能 检测 出 MPI 性 能 问题 的 根源 所 在 。 

关于 高 级 MPI 分 析 的 工具 好 在 有 一 些 免费 的 和 商用 的 ， 可 参见 [T24,T25,T26,T27,T28]。 
作为 第 一 步 ， 人们 通常 尝试 获得 与 应 用 程序 代码 有 关 的 MPI 库 运 行 时 间 、 调 用 哪些 函数 ， 
以 及 所 需 通信 量 的 大 致 情况 。 这 些 数据 至 少 可 以 揭示 出 通信 是 否 成 为 瓶颈 。IPM[T24] 就 
是 一 个 能 够 获取 这 些 信息 的 简单 又 低 开 销 的 工具 。 类 似 于 大 多 数 的 MPI 分 析 工 具 ，IPM 使 
用 MPI 分 析 接 口 ， 这 些 接口 属于 标准 的 一 部 分 [P15]。 每 个 MPI 函数 都 是 对 实际 果 数 的 一 
个 细微 的 封装 ， 它 们 以 “PMPI ”开头 。 因 此 ， 一 个 预 装 的 库 或 者 甚至 用 户 代 码 就 可 以 中 
Wr MPI 调用 ， 同 时 收集 分 析 数 据 。 对 于 IPM， 预 装 一 个 动态 库 (或 者 链接 一 个 静态 库 )， 然 
后 运行 应 用 就 足够 了 。 数 据 量 (每 个 进程 及 每 个 进程 对 )、MPI 调用 的 时 间 开 销 、 负 载 不 均 
等 信息 在 应 用 运行 时 累计 ， 最 后 以 图 表 的 形式 展现 出 来 。 图 10-1 展示 了 一 个 类 似 于 IPM 生 
成 的 主 从 工作 类 型 应 用 的 “通信 ”平衡 图 。 每 个 柱状 条 对 应 于 一 个 MPI 进程 号 (rank)， 表 
示 了 进程 在 不 同 MPI 困 数 上 的 运行 时 间 。 把 这 些 时 间 与 程序 的 整体 运行 时 间 进 行 对 比 是 很 
重要 的 ， 因 为 如 果 程 序 的 运行 时 间 长 达 几 个 小 时 ， 那 么 20 秒 的 同步 时 间 是 微不足道 的 。 本 
例 中 ， 运 行 时 间 为 38 秒 。 进 程 0 (EHE) 在 各 个 工作 者 间 分 配 任务 ， 因 此 它 在 调用 MPI_ 
Recv() 上 耗费 了 大 量 的 运行 时 间 来 等 竺 结果。 工作 者 们 负载 相当 不 平衡 ， 它 们 运行 时 间 中 的 
5% 一 50% 被 浪费 在 了 栅栏 处 等 待 。 参 数 上 一 点 小 的 改动 〈 减 小 工作 包 大 小 ) 可 以 改正 这 个 
问题 ， 得 出 的 平衡 图 如 图 10-2 中 所 示 。 整 体 运 行 时 间 减 少 了 大 约 25%. 
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图 10-1 IPM 对 于 一 个 主 从 工作 类 型 的 并 行 应 用 “通信 平衡 ”分 析 。 全 部 的 运行 时 间 大 约 为 
38 秒 ， 几 乎 全 部 花 在 进程 0 的 调用 MPI Recv0 中 。 其 他 进程 的 负载 十 分 不 平衡 ， 在 


一 个 栅栏 内 仅 占 到 了 10% ~ 50% 的 运行 时 间 
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图 10-2 与 图 10-1 相同 应 用 的 IPM 函数 分 析 ， 消 除了 其 中 的 负载 不 均衡 问题 

注意 ， 当 解释 和 总 结 占用 一 个 应 用 的 全 部 运行 时 间 结 果 时 必须 小 心 。 本 质 上 ， 同样 的 
预定 应 用 在 了 全 局 硬件 性 能 计数 器 信息 上 (参见 2.1.2 节 )。IPM 有 一 个 小 的 API， 用 于 收集 
被 分 解 成 用 户 可 定义 阶段 的 信息 ， 但 是 有 时 我 们 需要 更 详细 的 信息 。 更 先进 的 工具 能 够 支持 
一 个 成 为 事件 时 间 表 的 功能 。 一 个 MPI 程序 可 以 被 分 解 成 非常 专门 的 事件 (消息 的 发 送 / 接 
收 、 集 合 操作 、 阻 塞 等 待 等 )， 它 们 能 够 很 容易 地 用 时 间 轴 的 方式 可 视 化 展示 出 来 。 图 10-3 
是 来 源 于 “ Intel Trace Analyzer” 的 一 个 截图 [T26]. Intel Trace Analyzer 是 一 款 GUI 应 用 软 
件 ， 它 允许 对 MPI 程序 写 入 的 轨迹 数据 进行 浏览 和 分 析 (代码 在 运行 前 必须 链接 到 一 个 专门 
的 收集 器 库 )。 最 顶层 面板 展示 了 一 个 类 似 于 9.3.1 节 中 MPI 并 行 Jacobi 解法 器 代码 时 间 轴 的 


at MPI 编程 = 


缩放 图 。 图 中 的 黑 线 表示 点 对 点 通信 ， 亮 线 代 表 集 合 通 信 。 沿 时 间 轴 ， 每 个 进程 被 分 解 成 
MPI 代码 ( 亮 线 ) 和 用 户 代 码 ( 黑 线 ) 两 部 分 。 本 例 中 运行 时 明显 由 MPI 通信 占 主导 。 左 下 
方 的 饼 状 图 总 结 了 在 每 个 进程 中 用 户 代 码 和 MPI 代码 各 自 占 用 的 时 间 比 例 ， 作 为 负载 不 均 
衡 的 一 种 证 据 (本 例 中 代码 的 负载 是 均衡 的 )。 最 后 在 右 下 方 展示 的 面板 里 ， 可 以 读 出 每 种 
组 合 下 成 对 进程 间 的 数据 交换 量 。 所 有 的 这 些 数据 均 可 以 更 详细 地 展示 出 来 。 例 如 ， 每 个 消 
息 的 所 有 相关 参数 和 属性 如 持续 时 间 、 数 据 量 、 源 和 目标 等 都 可 以 各 自 观 察 到 。 图 中 有 MPI 
参与 的 部 分 可 以 被 分 开 单 独 展示 MPI 函数 ， 用 户 代 码 可 以 被 仪表 化 ， 这 样 不 同 的 函数 便 在 
时 间 轴 和 总 结 图 中 展示 出 来 。 
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图 10-3 对 一 个 运行 在 1 12 we 节点 上 的 MPI- 并 行 代码 使 用 Intel Trace Analyzer 得 到 的 时 间 轴 图 
(最 上 方 )、 负 载 性 能 分 析 (最 下 方 ) 以 及 通信 总 结 ( 右 下 方 )。 在 时 间 轴 图 中 点 对 点 
(集合 ) 消息 用 黑 ( 亮 ) 线条 表示 ， 黑 ( 亮 ) 框 或 扇形 图 代表 执行 的 应 用 (MPD 代码 


Intel Trace Analyzer 仅 是 众多 商业 和 免费 的 MPI 分 析 工 具 中 的 一 个 。 尽 管 不 同 的 工具 可 
能 会 侧重 于 不 同 的 方面 ， 但 是 它们 有 着 相同 的 意图 ， 就 是 使 能 够 代表 MPI 代码 性 能 属性 的 
大 量 数据 变 得 更 容易 理解 。 一 些 工具 侧重 于 大 规模 的 系统 ， 这 时 查看 单个 进程 的 时 间 轴 则 毫 
无 意义 ; 它们 试图 提供 一 个 高 层次 的 概况 ， 同 时 数据 自动 给 出 一 些 优化 建议 。 这 是 目前 仍 活 
路 人 研究 的 一 个 领域 [T29]。 
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高 效 使 用 MPI 分 析 工 具 需 要 大 量 的 经 验 ， 不 了 解 消 息 传 递 代 码 基本 性 能 陷阱 的 初学 者 
是 无 法 很 好 地 使 用 它们 。 因 此 ， 本 章 的 后 半 部 分 将 会 重点 阐述 这 些 内 容 。 


10.2 ”通信 参数 


在 4.5.1 节 中 我 们 介绍 了 一 些 网 络 的 基本 性 能 属性 ， 尤 其 侧重 于 点 对 点 消息 传递 。 尽 管 
简单 的 延迟 /带宽 模型 ( 见 4.2 节 ) 相当 好 地 描绘 了 有 效 带 宽 的 总 量 特征 ， 然 而 只 有 参数 化 
地 符合 乒乓 基准 测试 数据 并 不 能 重 现 正 确 ( 测 出 ) 的 延迟 值 ( 见 图 4-10 )， 原 因 在 于 MPI 的 
消息 传递 要 比 我 们 过 于 简单 的 模型 所 涵盖 的 内 容 更 加 复杂 。 大 多 数 的 MPI 实现 版 本 在 不 同 
变量 间 的 转换 依赖 于 消息 的 大 小 以 及 其 他 因素 : 

口 对 于 短 消 息 ， 消 息 自 身 及 任何 的 附加 信息 (长 度 、 发 送 者 、 标 签 等 ， 也 称 作 信封 ) 可 
以 被 发 送 和 存储 在 接收 方 预 先 分 配 好 的 缓冲 区 内 而 无 需 接收 方 干预 。 相 匹配 的 接收 
操作 不 是 必须 的 ， 但 消息 必须 在 一 点 从 中 间 绥 冲 区 复制 到 接收 缓冲 区 。 这 也 称 为 急 
YJ Hpi (eager protocol) 。 使 用 它 的 优势 是 可 以 避免 同步 开销 。 另 一 方面 ， 它 也 需要 
大 量 的 预 分 配 缓冲 区 空间 。 一 个 使 用 很 多 急切 消息 的 进程 会 因此 溢出 缓 神 区 ， 从 而 
导致 竞争 或 者 程序 垮 掉 。 

口 对 于 长 消息 ， 绥 存 数 据 毫 无 意义 。 这 时 接收 方 将 直接 存储 信封 ， 但 是 真正 的 消息 传 
递 直 到 接收 方 缓冲 区 可 用 时 才 开 始 。 额 外 的 数据 复制 因此 而 避免 ， 从 而 增加 了 可 用 
和 带宽， 但 是 发 送 方 和 接收 方 必须 同步 。 这 称 作 集结 协议 (rendevous protocol). 

取决 于 具体 应 用 ， 很 可 能 需要 适应 消息 长 度 处 在 急切 协议 和 集结 协议 适合 的 过 度 范围 情 
况 ， 或 者 需要 为 了 急切 数据 而 增加 预 留 的 缓冲 区 空间 (在 大 多 数 MPI 实现 版 本 中 这 些 都 是 可 
调 的 参数 )。 

pki 2 MPI Issend() 可 以 使 用 在 出 现 “ 急 切 溢出 ”这 种 问题 的 情形 下 。 它 工作 起 来 和 
MPI Isend() 类 似 ， 除 了 一 点 不 同 的 语义 : 如 果 发 送 缓冲 区 根据 请 求 句 柄 可 以 再 次 使 用 ， 那 
么 此 时 发 送 - 接收 的 握手 过 程 已 经 完成 ， 同 时 消息 传递 也 已 经 开始 ， 详 见习 题 10.3。 


10.3 同步 、 串 行 化 和 竞争 

本 节 阐 述 一 些 不 限定 在 消息 传递 上 但 可 能 以 MPI 的 特殊 形式 出 现 的 性 能 问题 ， 因 此 值 
得 详细 讨论 。 
10.3.1 ” 隐 式 串 行 化 和 同步 


“ 非 故 意 ” 的 频繁 同步 抑 其 至 是 串 行 化 是 并 行 编程 中 的 常见 现象 ， 并 不 只 限于 MPI。 在 
7.2.3 节 中 我 们 已 经 演示 了 错误 使 用 OpenMP 同步 并 行 代码 是 如 何 串 行 执行 的 。 类 似 的 陷阱 
也 存在 于 MPI 中 ， 它 们 通常 是 由 于 错误 地 假设 了 消息 的 传递 方式 而 产生 。 

在 9.2.2 节 中 用 于 阐明 使 用 阻塞 同步 点 对 点 消息 造成 死 锁 危 险 的 环形 通信 模式 是 一 个 很 
好 的 例子 。 如 果 链 条 是 开 的 ， 那 么 环形 将 变 成 线性 模式 ， 此 时 消息 在 进程 间 的 发 送 和 接收 以 
10-4 所 示 的 顺序 执行 ， 这 将 不 会 产生 死 锁 : 进程 5 开始 接收 ， 与 其 匹配 的 发 送 位 于 进 
程 4。 当 消息 发 送 结束 后 ， 进 程 4 可 以 开始 响应 它 的 接收 操作 。 假 定 参数 设置 函数 MPI 
Send() 为 非 同 步 的 ， 并 且 可 以 使 用 “急切 交付 ”( 见 10.2 节 )， 那 么 类 似 于 MPI 性 能 工具 展 
示 的 那样 ,一 个 典型 的 时 间 轴 图 如 图 10-5 所 示 。 若 网 络 为 非 阻塞 的 ， 则 消息 传递 可 以 相互 
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EA, I TA KER ER ( 同 阻塞 发 送 一 样 快 )， 所 以 大 部 分 时 间 都 花费 
在 接收 数据 上 (注意 这 里 并 没有 指明 数据 精确 存在 的 位 置 一 一 它们 可 以 在 发 送 方 到 接收 方 之 
间 的 任意 位 置 ， 这 取决 于 MPI 的 具体 实现 )。 












图 10-4 “一 种 线性 转换 通信 模式 。 即 使 是 同步 的 点 对 点 通信 ， 死 锁 也 不 会 发 生 ， 但 是 所 有 的 消 
息 传递 将 按 图 中 所 示 的 顺序 串 行 执行 


然而 ， 这 种 模式 存在 一 个 严重 的 性 能 问题 。 如 果 消 息 的 参数 (最 主要 是 长 度 ) 使 得 
MPI Send() 实际 的 执行 效果 同 MPI_Ssend0 一 样 ， 则 特有 的 同步 发 送 语义 一 定 会 被 观察 到 : 
在 匹配 的 接收 被 啊 应 前 ，MPI_Ssend0) 不 会 返回 用 户 代码 。 这 不 意味 着 MPI Ssend() 会 一 直 
阻塞 直到 消息 被 完整 地 传输 并 且 到 达 接 收 缓冲 区 。 因 此 ， 发 送 操作 及 与 其 相 匹配 的 接收 仅 会 
有 一 小 部 分 的 重 倒 ,虽然 这 能 提供 一 些 网 络 的 并 行使 用 ,但 同时 也 导致 了 一 部 分 性 能 损失 
(时 间 轴 图 参见 图 10-6 )。 这 种 情况 的 必要 前 提 是 消息 传递 仍然 遵循 急切 协议 : 如 果 急 切 交 付 
的 条 件 被 履行 ， 则 在 接收 操作 响应 前 数据 已 经 离开 了 发 送 缓冲 区 (以 阻塞 语义 的 形式 )， 因 
此 即使 是 在 另 一 方 终止 接收 的 情况 下 同步 发 送 也 是 安全 的 。 


进程 号 
5 





10-5 ”使 用 急切 交付 的 阻塞 GER) 发 送 图 10-6 使 用 急切 交付 的 同步 阻塞 发 送 和 接收 线性 转 
和 接收 线性 转换 时 间 轴 视角 (参见 图 10-4 )。 换 时 间 轴 视角 (参见 图 10-4 )。 虽 然 消息 传递 (箭头 ) 
利用 非 阻塞 网 络 消息 传递 能 够 重 和 看。 急切 交 可 以 被 完美 重 倒 ,但 消息 的 发 送 却 只 在 与 其 匹配 的 接 
付 允许 在 对 应 的 接收 被 处 理 前 结束 发 送 过 程 收 操作 响应 后 结束 

当 消 息 遵 循 集结 点 协议 传输 时 ， 情 况 将 变 得 更 糟 。 在 这 里 用 缓冲 区 是 不 可 行 的 ， 因 此 发 
送 方 和 接收 方 必须 以 一 种 方式 同步 以 确保 完整 的 端 到 端 数据 交付 。 在 我 们 的 例子 中 ， 五 个 消 
县 将 会 一 个 接 一 个 地 串 行 传输 ， 这 是 因为 没有 进程 可 以 在 下 一 个 进程 完成 接收 前 完成 消息 的 
发 送 。 进 程 位 于 的 地 方 沿 链条 越 远 ， 自 身 的 同步 发 送 操作 阻塞 的 时 间 就 会 越久 ， 并 且 没 有 重 
AHA HEHE. BI 10-7 用 时 间 轴 图 说 明了 这 种 情形 。 
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图 10-7 使 用 集结 点 协议 的 阻塞 发 送 和 接收 的 线性 转换 时 间 轴 视图 ( 见 图 10-4 )。 由 于 无 法 使 
用 缓冲 区 ,消息 (第 头 ) 串 行 传 递 


隐 式 串 行 化 应 该 尽量 避免 ， 因 为 它 不 但 是 一 种 额外 的 通信 开销 ， 还 有 可 能 像 上 面 那样 导 
致 负载 不 均衡 。 因 此 ， 思 考 清楚 如 何 转换 (环形 或 线性 ) 是 很 重要 的 ， 这 种 转换 的 同时 相似 
的 模式 可 以 被 高 效 执行 。 一 些 基本 的 替代 方案 在 9.2.2 节 中 已 经 进行 了 描述 ， 

口 改变 进程 上 的 发 送 和 接收 操作 次 序 ， 例 如 ， 进程 号 

所 有 的 奇数 号 进程 ( 见 图 10-8 ) 。 成 对 的 进程 š 
因此 能 够 利用 可 用 网 络 容量 的 一 部 分 并 行 交 


换 消 息 。 
口 使 用 如 9.3 节 在 并 行 Jacobi 解法 器 中 展示 的 非 3 

阻塞 孙 数 。 由 于 多 个 通信 可 以 被 MPI 库 以 一 

种 最 优 的 次 序 处 理 ， 所 以 非 阻塞 函数 可 以 获得 2 

额外 的 益处 。 此 外 ， 它 们 还 提供 了 至 少 一 种 实 

现 真正 异步 通信 的 机 会 ， 即 使 当 一 个 进程 在 执 


行 它 的 代码 时 ， 辅 助 线程 和 硬件 机 制 可 以 传输 
数据 。 注意 , 这 种 操作 模式 必须 被 看 作 是 MPI 

实现 提供 的 优化 手段 ; MPI 标准 故意 避免 了 有 图 10-8 即使 消息 发 送 是 同步 的 并 且 使 
关 异 步 传输 数据 的 任何 说 明 。 用 集结 点 通信 ， 在 奇数 号 进程 上 交换 发 

O 使 用 不 会 引起 死 锁 的 点 对 点 函数 ， 忽 略 消息 的 ” 送 和 接收 次 序 也 会 展露 出 通信 的 并 行 性 
大 小 ， 特 别 是 MPI_Sendrecv() (I3 #1 10.7) 或 MPI Sendrecvy replace()。 在 内 部 ， 
这 些 函 数 调 用 通常 是 由 非 阻 塞 调 用 和 MPI_Wait() 的 组 合 来 实现 ， 实 际 上 这 些 属于 方 
便 使 用 的 函数 。 


10.3.2 ”竞争 


我 们 已 经 用 过 的 简单 延迟 /带宽 通信 模型 加 上 细致 的 消息 传递 ( 见 10.2 节 ) 能 够 解释 很 
多 作用 ， 但 并 不 包括 竞争 作用 。 这 里 我 们 想 将 有 关 竟 争 的 讨论 约束 在 网 络 互联 上 ;忽略 共享 
内 存 多 槽 多 核 系统 上 的 共享 资源 ， 例 如 一 个 计算 节点 (有 关 这 些 问 题 的 讨论 参见 1.4 节 、4.2 
PR 6.2 市 中 的 例子 )。 假 定 有 一 个 设计 成 4.4 节 中 讨论 的 那 种 典型 混合 (分 层次 ) 并 行 计 算 
机 ， 网 络 欧 争 将 发 生 在 两 个 级 别 上 : 
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口 同一 个 节点 上 的 多 个 线程 或 进程 会 向 其 他 节点 发 出 通信 请 求 。 如 果 珊 宽 没 有 扩展 到 
多 互联 ， 则 每 个 连接 上 的 可 用 带宽 将 会 下 降 。 这 对 于 通常 只 有 一 个 MPI 通信 的 (有 
时 甚至 需要 访问 远程 文件 系统 ) 网 络 接口 的 商用 系统 是 非常 普遍 的 。 在 这 些 机 大 上 ， 
单一 的 线程 就 能 够 占据 网 络 接口 。 然 而 ， 当 需要 多 互联 来 充分 利用 可 用 的 网 络 带宽 


时 ， 也 会 使 用 并 行 计算 机 [069]. 


口 网 络 拓扑 可 能 不 是 完全 非 阻 塞 的 ， 即 分 开 的 带宽 (OL 4.5.1 节 ) 可 能 会 低 于 节点 数 与 
单个 连接 的 带宽 之 积 。 这 在 如 立方 网 格 或 肥 树 非 阻 塞 网 络 中 是 很 常见 的 。 
口 即使 分 开 的 带宽 是 最 优 的 ， 但 对 于 某 些 特定 的 通信 模式 ( 见 4.5.3 节 中 图 4-17 ) 静态 
也 会 导致 竞争 。 对 于 已 经 定义 好 通信 框架 且 需 要 性 能 优化 的 单独 应 用 ， 改 变 网 络 搭 
建 好 的 路 由 表 (如 果 可 行 ) 可 以 成 为 一 个 选择 [057]. 
除了 最 罕见 的 消息 传递 方式 ,通常 情况 下 ， 在 当前 的 并 行 系统 上 很 难 避 人 免 一 些 类 型 的 竞 
争 。 只 有 在 通信 代表 了 运行 时 的 一 个 可 测量 部 分 时 ， 对 应 用 性 能 的 实际 影响 才 会 显现 。 
注意 有 些 通信 模式 特别 容易 引起 竞争 ， 如 每 个 进程 向 其 他 所 有 进程 发 送 消 息 的 多 对 多 通 
信 传 输 模式 ; MPI 中 的 晒 数 MPI_Alltoall() 便 是 这 种 情况 的 一 种 特殊 形式 。 可 以 预见 ， 在 未 
来 的 几 年 里 ， 大 规模 并 行 体系 结构 下 的 多 对 多 通信 性 能 会 继续 下 降 。 
任何 通过 降低 通信 开销 及 消息 传输 量 ( 见 10.4 节 ) 的 优化 手段 都 很 有 可 能 对 减少 竞争 
有 效 。 即 使 无 法 减少 消息 数据 的 传输 量 ， 也 可 以 通过 重 排 通 信 调 用 的 次 序 来 使 竞争 最 小 化 


[A85]。 


10.4 降低 通信 开销 


10.4.1 最 优化 区 域 分 解 


区 域 分 解 是 数据 并 行 化 最 重要 的 实现 
方式 之 一 。 大 多 数 流 体 动 力学 及 结构 力学 
的 模拟 均 基 于 区 域 分 解 及 晕 环 层 交 换 。9.3.2 
节 中 我 们 已 经 证 明了 在 简单 情况 下 ， 尝 环 
通信 的 性 能 特点 可 以 被 模型 精确 地 模拟 ， 
同时 将 整个 问题 在 子 区 域 上 进行 的 分 解决 
定 了 通信 的 数据 量 ， 这 将 严重 影响 性 能 。 
下 面 我 们 将 要 和 弄 清 楚 选 择 一 个 “ 错 ” 的 分 
解 (开销 方面 ) 会 造成 哪些 影响 ， 同 时 站 明 
如 何 导 出 9.3.2 节 描 述 的 并 行 Jacobi 解法 器 
中 的 性 能 模型 。 

1. 最 小 化 区 域 间 表 面积 

图 10-9 展示 了 ZL 大 小 的 立方 体 区 域 
在 强 扩展 下 分 解 成 N 个 子 区 域 的 不 同 的 可 
能 情况 。 取 决 于 区 域 切 分 执行 在 一 维 、 二 
维 或 者 所 有 三 个 维度 (从 顶 到 底 ) 的 不 同情 
况 ， 每 个 进程 同 它 相 邻 进程 产生 的 必要 通 
信 数 据 量 c(L, N) 也 随 N 不 同 有 相应 的 变 





“平板 形 ” 
cia(L, N) =L-L-w-2 
=2wL? 





“网 柱 形 ” 


L 
czxa(L, N) =L: Fe W (242) 
=4wL?N-"? 
“立方 体形 ” 
E Ł 
Cal L, N) =y yN Y (2+2+2) 
=6wL N? 


图 10-9 周期 边界 条 件 、 问 题 大 小 为 LORA H J ) 
的 立方 区 域 三 维 区 域 分 解 : 切 分 成 一 维 (最 上 面 )、 
二 维 (中 间 ) 或 者 全 部 三 个 维度 (下 面 ) 三 种 情况 下 ， 
每 个 进程 的 通信 量 cL, N 与 进程 数 W、 单 地 域 数 据 
量 w ( 字 节 ) 之 间 的 关系 
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化 。 最 好 的 情况 是 在 立方 子 区 域 上 获得 的 (参见 习题 10.4 )， 如 最 速 下 降 法 。 此 处 我 们 忽略 
分 解 选项 对 NW 和 整体 区 域 形状 (可 能 不 是 立方 体 ) 的 依赖 。 在 假设 完整 区 域 为 立方 体 的 前 提 
F, K% MPI Dims create) 默认 会 尝试 使 子 区 域 尽 可 能 地 变 成 方块 。 尽 管 “ 平 板 ” 子 域 更 
易 实现 ， 但 我 们 通常 情况 下 都 不 会 使 用 它 ， 主 要 原因 在 于 相 比 于 网 柱 或 立方 体 区 域 分 解 ， 它 
产生 与 W 无 关 的 更 大 开销 。 每 个 子 域 上 的 通信 量 为 常数 会 严重 损害 强 可 扩展 性 ， 因 为 性 能 
在 较 低 级 别 上 达到 饱和 ， 这 受 限 于 消息 大 小 (如 平板 面积 ) 而 非 延 迟 ( 见 式 〈《5-27 ))。 

在 网 柱 形 和 立方 体形 子 域 通信 和 量 表达 式 中 ,NN 的 负 指 数 窒 会 抑制 通信 开销 ,但 数据 表面 
积 与 体积 的 比率 仍 会 随 着 N 增 大 而 增 大 。 更 糟糕 的 是 ， 对 于 常量 问题 规模 的 处 理 絮 数目 扩 
展会 使 得 “乒乓 曲线 ' 沿 着 更 小 的 消息 量 方向 下 降 ， 最 后 变 成 延迟 主导 的 方式 ( 见 4.5.1 节 )。 
这 些 已 隐 含 地 在 我 们 的 精确 性 能 模型 ( 见 5.3.6 节 ， 特别 是 公式 5-28) 和 “ 慢 计 算 ”( 5.3.8 
节 ) 中 予以 考虑 。 注 意 ， 在 没有 消息 重 友 的 作用 下 ， 六 个 晕 环 通信 中 的 每 个 均 遭 受 了 延迟 ; 
如 果 延 迟 占据 开销 的 主导 地 位 ,那么 “最 优 ” 三 维 分 解 将 会 由 于 每 个 区 域 有 更 多 的 邻居 进 
程 而 变 得 不 尽 如 人 意 。 

每 个 位 置 (w) 的 通信 和 量 取 决 于 具体 问题 。 对 于 9.3 节 中 的 简单 Jacobi 算法 ，w=16 (使 
用 双 精 度 浮 点 数 ， 沿 正 负 坐标 方向 各 8 字 节 )。 如 果 算 法 需要 高 阶 导数 或 者 存在 长 距离 的 相 
互 作 用 ， 那 么 w 将 会 更 大 。 同 样 的 情形 适用 于 当 网 格 点 的 数据 结构 比 标量 更 复杂 的 情况 ， 
例如 lattice-Boltzmann 算法 [A86,A87]。 也 可 参见 下 面 的 章节 。 

2. 映射 问题 

当代 计算 机 毫 无 疑问 全 都 具有 分 层次 的 机 构 。 它 们 全 都 是 由 共享 内 存 的 多 处 理 禹 “ 贡 
点 ”通过 网 络 耦 合 而 成 〈 参 见 4.4 节 )。 使 用 这 种 硬件 的 最 简单 方法 就 是 在 每 个 核 上 运行 一 个 
MPI 进程 。 假 设 位 于 相同 节点 上 的 任意 两 核 间 的 点 对 点 通信 均 大 大 快 于 跨 节点 间 的 两 核 通 信 
(涉及 带宽 和 延迟 )， 显 然 计 算 子 区 域 到 核 的 映射 对 通信 开销 具有 重要 影响 。 理 想 情 况 下 ， 如 
果 人 允许 进程 重 排 ,那么 映射 会 被 函数 MPI Cart create) 优化 ， 但 是 大 多 数 MPI 实现 并 不 知 
道 并 行 计算 机 的 拓扑 结构 。 

举 个 简单 的 例子 来 说 明 这 一 点 。 物 理 问题 为 在 一 个 具有 周期 边界 条 件 的 4x8 EE JLH 
程 网 格 上 进行 二 维 仿真 。 图 10-10 描述 了 一 个 在 4 个 书 点 (A ~ DD), EATA 8 个 核 的 机 
做 上 的 典型 “默认 ”配置 《我们 略 去 了 网 络 拓扑 以 及 任何 如 cache 组 、cceNUMA 局 部 域 等 这 
样 的 子 结构 )。 基 于 内 点 互联 开销 低 的 假设 ， 相 邻 点 的 通信 效率 〈 如 晕 环 层 交 换 ) 取决 于 每 





图 10-10 一 个 二 维 4x8 周期 区 域 分 解 的 典型 MPI 进程 号 (数字 ) 到 子 区 域 (方块 ) 和 集群 节点 
(FE) 上 的 默认 上 映射。 每 个 节 与 其 他 节点 有 16 个 接口 相连 。 内 点 间 的 连接 被 省 去 
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个 节点 上 节点 间 相 连 的 最 大 数目 。 图 10-10 上 的 映射 导致 了 16 个 这 样 的 连接 。 每 个 节点 上 
的 “通信 表面 ”要 比 它 需要 的 大 ， 这 是 因为 分 给 它 的 8 个 子 域 沿 着 一 个 维度 线性 排 开 。 选 取 


图 10-11 中 的 短 长 方形 策略 可 以 立即 将 节点 间 的 互联 数 降 到 12 个 ， 从 而 减少 网 络 竞争 。 由 


于 每 个 连接 的 数据 量 保持 不 变 ， 这 就 相当 于 减少 了 25% 的 节点 间 通 信 量 。 实 际 上 对 于 这 个 


问题 ， 这 已 经 是 能 找到 的 最 小 开销 的 映射 方案 。 





图 10-11 MPI 进程 号 和 子 域 到 节点 上 的 一 种 完美 映射 。 每 个 节点 同 其 他 节点 有 12 个 节点 间 互 联 


到 目前 为 止 ， 我们 一 直 预 先 假设 MPI 子 系统 会 尽 可 能 优先 在 同一 个 节点 上 分 配 连 续 进 
程 号 ， 例 如 ， 在 使 用 下 个 节点 前 填 满 当前 节点 。 尽 管 这 在 很 多 并 行 计算 机 上 都 是 一 个 合理 的 
假设 ， 但 这 绝 不 能 认为 是 理所当然 的 。 考 虑 连续 进程 号 映射 到 连续 节点 这 样 的 循环 分 布 情 
况 ， 此 时 图 10-11 中 的 最 优 解 将 会 变 为 最 差 的 方案 : 图 10-12 表明 此 时 每 个 节点 含有 32 个 
节点 间 互 联 。 





图 10-12 与 图 10-11 中 相同 的 进程 号 到 子 域 间 的 映射 ， 但 进程 号 以 循环 的 方式 被 分 配 到 节点 
上 ， 即 连续 的 进程 号 运行 在 不 同 的 节点 上 。 这 样 导致 了 每 个 节点 上 具有 32 个 节点 间 
互联 


类 似 的 想法 应 用 在 其 他 类 型 的 并 行 计算 机 上 ， 例 如 基于 GE) 立方 体 网 格 网 络 的 结构 
(UL 4.5.4 攻 )， 这 种 结构 上 的 点 间 通 信 通 常 是 有 利 的 。 如 果 笛 卡 儿 拓扑 结构 与 MPI 进程 号 到 
节点 间 的 映射 不 匹配 ， 那 么 产生 的 长 距离 连接 会 导致 难以 忍受 的 缓慢 通信 (通过 网 络 容量 衡 
量 )。 当 然 ， 对 于 应 用 性 能 的 实际 影响 可 能 会 变化 。 如 果 并 行程 序 不 被 通信 所 限制 ， 那 么 任 
何 类 型 的 映射 都 是 可 接受 的 。 然 而 ， 最 好 牢记 一 件 事 ， 就 是 MPI 环境 提供 的 默认 设置 通常 
不 可 信 。 可 以 使 用 10.1 节 中 介绍 的 MPI 性 能 工具 列 出 每 个 单独 的 点 对 点 连接 的 有 效 带宽 ， 
这 样 如 果 数 字 与 期 望 不 符 ， 就 可 以 诊断 出 可 能 的 映射 问题 。 
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截至 目前 ， 我 们 一 直 忽 略 任何 内 点 连接 问题 ， 并 假设 在 同一 节点 上 不 同 核 之 间 的 MPI 
通信 “无 限 快 ” 。 尽 管内 点 延迟 的 确 要 远 小 于 目前 存在 的 任何 一 种 网 络 连 接 技术 ， 但 是 带宽 
是 一 种 完全 不 同 的 问题 ， 并 且 不 同 的 MPI 实现 在 内 点 性 能 上 大 不 相同 ， 更 多 信息 参见 10.5 
节 。 真 实 的 混合 程序 ， 即 每 个 MPI 进程 由 多 个 OpenMP 线程 组 成 的 程序 ， 映 射 问题 变 得 更 
加 复杂 。 详 细 的 讨论 参见 11.3 节 。 


10.4.2 聚合 消息 


如 果 一 个 并 行 算法 需要 在 进程 间 传 输 大 量 的 短 消 息 ， 通 信 将 会 变 成 受 延 迟 制约 的 ， 因 为 
每 个 消息 都 会 导致 延迟 。 因 此 ， 短 消息 应 该 被 聚合 到 连续 的 缓冲 区 中 然后 以 更 大 的 块 发 送 ， 
这 样 将 只 需 承 受 一 次 延迟 ， 同 时 有 效 通信 带宽 会 尽 可 能 地 接近 于 乒乓 图 上 的 饱和 区 域 ( 见 
4.5.1 节 中 的 图 4-10 ) 。 当 然 ， 这 个 优势 也 适用 于 类 似 的 点 对 点 及 集合 通信 。 
只 有 在 复制 消息 到 连续 缓冲 区 的 时 间 不 超过 单独 发 送 的 延迟 时 间 的 这 种 条 件 下 ， 聚 合 才 
会 奏效 。 即 如 果 
(m-1) T> == (10-1) 


这 里 六 为 消息 的 数量 ，L 为 消息 的 长 度 ，B. 为 内 存 到 内 存 的 复制 带宽 。 为 了 简便 起 见 ， 我 们 
假设 所 有 的 消息 具有 相同 的 长 度 ， 并 且 内 存 间 复 制 的 延迟 极其 微小 。 实 际 获得 的 优势 也 依赖 
于 原始 网 络 带宽 B.， 因 为 串 行 通信 与 聚合 通信 的 时 间 比 率 为 


T,/L+B,,' 


f, 
T  TimLiB +B ( 10-2 ) 


例如 在 一 个 慢 网 络 上 ， 如 果 B。 相对 于 分 子 和 分 母 上 的 其 他 表达 式 很 大 ， 这 个 比率 就 会 接近 


”于 1， 至 合 通 信 将 不 会 获 益 。 


消息 聚合 的 一 个 典型 应 用 是 使 用 多 层 尝 环 的 模板 解法 器 : 在 一 个 子 域 上 经 过 多 次 更 新 
(Affi) 之 后 ,一 个 消息 的 多 尝 环 层 交 换 可 以 利用 “ PingPong ride ”来 降低 延迟 的 影响 。 如 
果 这 个 方法 对 优化 一 个 已 有 代码 是 可 行 的， 那么 应 该 使 用 合适 的 性 能 模型 来 估计 期 望 增益 
[053,A88]. 

消息 聚合 和 派生 数据 类 型 

典型 的 消息 聚合 的 例子 出 现在 分 开 的 ， 即 非 连续 数据 项 必须 在 进程 间 传 输 的 时 候 ， 如 和 扼 
阵 的 一 行 (Fortran ) 或 者 一 串 不 相关 的 、 很 可 能 类 型 也 不 同 的 变量 。MPI 提供 支持 这 种 功能 
的 所 谓 的 导出 数据 类 型 (derived datatype)。 程 序 员 可 以 引入 新 的 数据 类 型 而 不 只 局 限于 内 
建 的 种 类 (MPI_INTEGER 等 ) 并 且 在 通信 调用 中 使 用 它们 。 有 大 量 的 选择 可 供 定义 新 的 类 
型 : 市 间距 的 类 数组 、 索 引 数 组 、n 维 数组 的 子 数组 ， 其 至 还 可 以 是 分 散在 内 存 中 毫 无 关联 、 
不 同类 型 的 数据 集合 。 新 类 型 必须 首先 使 用 MPI Type XXXXX() 定义 ， 此 处 “XXXXX” 
指 代 上 面 提 到 的 一 个 变量 。 函 数 调 用 将 新 类 型 作为 一 个 整数 类 型 (Fortran 中 ) 或 者 是 一 
个 MPI_Datatype 结构 ( C/C++ 中) 返回 。 为 了 使 用 这 个 类 型 ， 必 须 先 由 函数 MPI Type_ 
commit() 提交 。 一 旦 这 个 类 型 不 再 需要 了 ， 可 以 使 用 MPI_Type free() 将 其 释放 。 

下 面 我 们 定义 一 个 新 类 型 用 来 表示 Fortran 矩阵 中 的 一 行 以 演示 上 面 提 到 的 内 容 。 由 
于 Fortran 采用 列 主 元 来 实现 多 维 数 组 ( 见 3.2 节 )， 因 此 和 矩阵 行 在 内 存 中 是 不 连续 的 ， 行 
中 的 每 个 元 素 被 一 个 固定 跨度 的 数据 块 隔 开 。 这 种 情况 下 适合 的 MPI 调 用 是 MPI Type 
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vector()， 它 的 主要 参数 在 图 10-13 中 描述 。 我 们 用 它 来 定义 XMAXXYMAX 维 的 双 精 度 
矩阵 中 的 一 行 。 因 此 ，count=YMAX，blocklength=1，stride=XMAX， 原 始 类 型 为 MPI_ 
DOUBLE PRECISION: 





1 double precision, dimension (XMAX, YMAX) :: matrix 
2 integer newtype ! new type 
3 
4 call MPI_Type_vector (YMAX, ! count 
5 Lo ! blocklength 
6 XMAX, ! stride 
MPI_DOUBLE_PRECISION, ! oldtype 
8 newtype, ! new type 
9 ierr) 
10 Call MPI Type commit (newtype, ierr) ! make usable 
11 eee 
12 call MPI_Send(matrix(5,1), ! send 5th row 
13 Ly ! sendcount=1 
14 newtype,...) ! use like any type 
iS se 
16 Call MPI_Type_ free (newtype, ierr) ! release type 

_ | oldtype 

count 


| stride | 
一 
| O | | | 
Ll 


blocklength 
图 10-13 MPI Type_vector 需要 的 参数 。 这 里 blocklength=2, stride=5, count=2 


代码 12 行 中 ， 这 个 类 型 被 用 于 发 送 敌阵 的 第 $S 行 ，MPI Send() 中 的 count 值 设 置 为 1 
( 当 发 送 多 于 一 个 这 种 类 型 的 实例 时 必须 要 小 心 ， 因 为 每 个 实例 结尾 处 的 “跨度 ”在 默认 情 
况 下 是 被 忽略 的 ; 细节 请 查阅 MPI 标 准 )。 在 笛 卡 儿 拓 扑 结构 中 简化 晕 环 交换 的 数据 类 型 可 
以 用 相似 的 方式 建立 。 

尽管 派生 数据 类 型 方便 使 用 ， 但 是 它们 的 性 能 隐患 仍 不 清楚 ， 这 是 性 能 优化 在 各 版 本 
MPI 实现 间 不 可 移植 这 个 原则 的 一 个 很 好 的 实例 。 库 可 以 将 新 类 型 的 一 部 分 聚合 进 一 个 内 部 
的 连续 缓冲 区 ， 但 也 可 以 分 别 发 送 这 些 片 段 。 即 使 发 生 了 聚合 ， 人 们 也 不 能 确保 它 以 最 高 效 
的 方式 完成 ; 例如 使 用 非 临 时 的 存储 区 对 较 大 量 的 数据 有 益 ， 又 如 (如 果 每 个 MPI 进程 可 
以 使 用 多 个 线程 ) 复制 可 以 是 多 线程 的 。 一 般 情况 下 ， 如 果 导 出 数据 类 型 对 性 能 影响 很 大 ， 
用 户 则 不 应 该 依赖 于 库 的 效率 ， 而 是 应 该 检验 手动 复制 是 否 可 以 提高 性 能 。 如 果 可 以 ， 这 个 
“性 能 缺陷 ”需要 反映 给 MPI 库 的 提供 者 。 


10.4.3 非 阻塞 与 异步 通信 


除了 前 面 章 节 中 提 到 的 努力 降低 通信 开销 外 ， 进 一 步 增 加 并 行程 序 效率 的 方法 是 将 通信 
和 计算 的 时 间 重 又 。 非 阻塞 点 对 点 通信 似乎 是 实现 这 一 目标 的 直接 手段 ,并且 实际 上 我 们 已 
经 在 MPI- 并 行 Jacobi 解法 器 中 使 用 了 它 ， 当 时 我 们 使 用 MPI Irecv() 函数 来 重 释 复制 数据 
到 发 送 缓冲 区 的 党 环 数据 接收 和 发 送 过 程 ( 见 9.3 节 )。 然 而 ， 在 模板 更 新 (包含 实际 的 “ 工 
作 ” 过 程 ) 和 通信 之 间 并 没有 并 行 性 。 一 种 实现 这 个 目标 的 方法 是 首先 执行 形成 子 域 边界 的 
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区 后 ，MPI Isend() 可 以 被 用 于 在 模板 更 新 执行 的 过 程 中 发 送 数据 。 

然而 ， 正 如 更 早 前 提 到 的 那样 ， 用 户 必 须 严 格 地 将 非 阻 塞 与 真正 的 异步 通信 区 分 开 来 。 
根据 MPI 标准 ， 非 阻塞 语义 仅 意 味 着 消息 缓冲 区 在 函数 调用 从 MPI 库 返 回 后 不 能 继续 使 用 ; 
虽然 是 理所当然 的 ， 但 是 否 数据 传输 完全 取决 于 具体 实现 ， 即 MPI 过 程 发 生 在 用 户 代码 执 
行 在 MPI 外 面 时 。 

代码 清单 10-1 展示 了 一 段 可 以 用 于 检验 一 个 MPI 库 是 否 文 持 异步 通信 的 基准 测试 程 
序 。 代 码 恰 好 由 两 个 处 理 器 执行 (我 们 略 去 了 初始 化 代码 )。do_work0 函数 以 参数 指定 的 数 
秒 钟 的 持续 时 间 执 行 一 些 用 户 代 码 。 为 了 排除 竞争 效应 ， 函 数 应 该 执行 一 些 不 涉及 同步 内 存 
传输 的 操作 ， 如 寄存 器 间 的 算术 运算 。MPI 的 数据 大 小 (count) 选取 为 使 消息 传递 耗费 大 
量 时 间 ( 数 十 毫秒 ) 的 尺寸 ， 即 便 是 在 最 先进 的 网 络 上 。 如 果 MPI Irecv() 发 起 了 一 个 真正 
的 异步 数据 传输 ， 那 么 测量 的 整体 时 间 会 随 着 增 大 的 延迟 保持 不 变 直 到 延迟 等 于 消息 的 传输 
时 间 。 除 此 之 外 ， 执 行 时 间 都 会 线性 增加 。 男 一 方面 ， 如 果 MPI 过程 只 在 MPI 库 内 部 发 生 
(本 例 中 意味 着 在 MPI Wait) 内 )， 数 据 传 输 的 时 间 及 do_work() 的 执行 时 间 会 一 直 累 加 ， 同 
时 整体 的 运行 时 间 会 从 零 延 迟 开始 线性 上 升 。 图 10-14 展示 了 一 些 当 代 并 行 计算 机 结构 和 互 
联 情况 下 节点 间 的 互 连 节点 数据 (空心 符号 ) 。 在 这 些 机 器 系统 中 ， 只 有 Cray XT 大 规模 并 
行 系统 默认 支持 异步 的 节点 间 MPI 操作 (空心 钻 形 )。IBM Blue Gene/P 系统 默认 使 用 轮 询 
的 方式 处 理 消息 ， 从 而 排除 了 异步 传输 (空心 方形 )。 然 而 ， 基 于 中 断 的 过 程 可 以 在 这 台 机 
ar PG [V116]， 从 而 使 异步 消息 传递 发 生 (实心 方块 )。 

代码 清单 10-1 MPI 执行 异步 点 对 点 通信 能力 的 测试 代码 


1 double precision :: delay 
2 integer :: count, req 

3 count = 80000000 

4 delay = 0.d0 

5 

6 do 

4 

8 


call MPI_Barrier(MPI_COMM_ WORLD, ierr) 
if (rank.eq.0) then 
9 t = MPI _Wtime’() 


10 call MPI Irecv (buf, count, MPI_BYTE, 1, 0, & 
i MPI_COMM_WORLD, req, ierr) 

12 call do_work (delay) 

13 call MPI_Wait (req, status, ierr) 

14 t = MPI_Wtime() - t 

15 else 

16 call MPI_Send(buf, count, MPI_BYTE, 0, 0, & 
17 MPI_COMM_WORLD, ierr) 

18 endif 

19 write(*,*) ‘Overall: ’,t,’ Delay: ’,delay 

20 delay = delay + 1.d-2 

21 if (delay.ge.2.d0) exit 


22 enddo 

人 们 也 许 会 提出 如 果 do_work() 函数 执行 受 边界 约束 的 代码 ， 那 么 结果 将 会 改变 ， 这 是 
因为 消息 传输 会 影响 CPU 可 用 的 内 存 带 宽 。 然 而 ， 这 种 作用 只 有 在 网 络 带 宽大 到 堪 比 一 个 
节点 的 聚合 内 存 带宽 时 才 是 主要 的 ， 但 是 这 对 于 当今 的 计算 机 系统 不 成 问题 。 

尽管 在 计算 系统 的 选择 上 并 没有 对 当代 的 技术 进行 彻底 调查 ， 但 结果 仍 具 有 代表 性 。 从 
商用 集群 到 价格 昂贵 的 超级 计算 机 ， 几 乎 没有 对 异步 非 阻塞 传输 消息 的 任何 支持 ， 尽 管 大 多 
数 计算 机 系统 都 装备 了 像 DMA 引擎 这 样 允 许 后 台 通信 的 硬件 设施 。 这 种 情况 对 于 内 点 消息 
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传递 甚至 更 糟糕 ， 因 为 用 于 内 存 间 复 制 的 专用 硬件 十 分 罕见 。 对 于 Cray XT4， 这 种 情形 演 
示 在 图 10-14 中 (实心 钻 形 )。 注 意 ， 纯 通信 时 间 大 致 匹配 内 点 情形 的 时 间 ， 尽 管 此 时 不 使 
用 机 器 的 网 络 并 且 MPI 可 以 利用 共享 内 存 进 行 复 制 。 这 是 由 于 长 消息 的 MPI 点 对 点 带宽 几 
乎 等 同 于 内 点 及 节点 间 的 情形 ， 所 以 这 个 特征 在 混合 并 行 系统 上 非常 普遍 。 详 见 10.5 节 中 
的 讨论 。 






4—4 QDR-IB cluster, Intel MPI 3.2.2 
~A QDR-IB cluster, OpenMPI 1.4.1, lsend 
一 全 QDR-IB cluster, OpenMPI 1.4.1, lrecv 

O—O SGI Altix 3700 (NumaLink 3) 

D0 IBM Blue Gene/P (default) 
=—a IBM Blue Gene/P (interrupts) 

CO Cray XT4 

@—@ Cray XT4 intranode 









整体 时 间 [s] 


0 0.05 0.1 0.15 0.2 0.25 
延迟 时 间 [s] 


图 10-14 ”在 不 同体 系 结构 中 ， 连 接 方 式 及 MPI 版 本 下 的 MPI 重 伙 基准 测试 结果 。 在 所 有 这 些 
结果 中 ， 只 有 Cray XT4 上 的 MPI E (GE) 及 高 速 互联 集群 上 的 OpenMPI (实心 三 
角形 ) 能 在 默认 情况 下 支持 异步 传输 ， 然 而 OpenMPI X FIERE RKE AFER., 
内 点 通信 中 ， 重 全 技术 在 这 些 考虑 的 系统 中 通常 是 不 可 用 的 。 在 IBM Blue Gene/P 系 
统 上 ， 通 过 设置 参数 DCMF INTERRUPTS=! 启动 中 断 驱 动 的 过 程 (实心 方形 ) 可 以 
实现 异步 传输 


结论 是 人 们 不 应 该 把 过 多 的 优化 精力 放 在 通过 非 阻塞 点 对 点 的 函数 调用 而 利用 非 阻塞 通 
信 上 ， 因 为 这 种 手段 只 会 在 很 少 的 环境 中 才 会 成 功 。 然 而 这 并 不 意味 着 非 阻塞 MPI ICH 
处 ; 它 对 于 预防 死 锁 、 减 少 同步 开销 引起 的 闲置 时 间 以 及 高 效 处 理 多 个 通信 请 求 都 是 有 价值 
的 。 稍 后 的 一 个 例子 便 是 当 发 送 和 接收 操作 同时 出 现时 利用 了 全 双 工 传输 。 与 异步 传输 不 
同 ， 全 双 工 通信 被 当今 的 大 多 数 连接 方式 及 MPI 实现 所 支持 。 

即使 MPI 不 支持 在 其 他 线程 执行 用 户 代码 时 额外 发 起 一 个 单独 的 线程 (OpenMP 或 者 线 
程 的 其 他 变 体 ) 用 于 处 理 MPI 调用 ， 但 将 计算 和 通信 进行 重 和 至 仍然 是 可 能 的 。 这 是 混合 编程 
的 一 种 变形 ， 我 们 将 在 第 11 章 中 对 它 进 行 讨论 。 

10.4.4 ”集合 通信 

在 9.2.3 节 中 我 们 通过 调用 MPI_Reduce() 替换 “手动 ”将 各 部 分 结果 累加 的 方式 对 数 

值 积 分 程序 进行 了 修改 。 除 了 普遍 性 地 降低 了 编程 的 复杂 性 之 外 ， 集 合 通信 也 具有 优化 的 潜 


质 : 程序 最 原始 的 组 织 方法 使 得 通信 开销 随 进程 数 的 增加 而 线性 增 大 ， 这 是 由 于 即便 是 使 用 
非 阻塞 通信 ， 在 接收 端 仍然 会 有 严重 的 竞争 〈 见 图 10-15 )。 如 果 网 络 是 非 阻塞 ， 但 将 各 部 分 
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结果 使 用 分 组 的 进程 相 加 然后 再 将 结果 传播 给 接收 进程 的 这 种 “ 树 状 ” 通 信和 模式 能 够 改变 对 
算法 的 线性 依赖 性 LE 10-16 )。( 这 里 我 们 将 网 络 延 迟 和 带宽 以 同样 的 方式 对 待 -) 尽管 每 
个 独立 的 进程 通常 不 得 不 串 行 化 它 所 有 的 发 送 和 接收 ， 但 仍然 会 有 足够 的 并 行 性 使 得 树 状 模 


式 比 简单 的 线性 方法 更 加 高 效 。 
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图 10-15 在 积分 例子 (代码 清单 9-3) 中 实现 的 通信 开销 与 进程 数量 呈 线 性 关系 的 全 局 归 约 。 
每 个 箭头 代表 了 一 个 到 接收 者 进程 的 消息 。 阴 影 部 分 表示 在 一 个 时 间 步 长 内 通信 的 


进程 
集合 MPI 调用 内 置 了 恰当 的 算法 以 在 任何 网 络 上 都 
能 获得 合理 的 性 能 [137]。 在 理想 情况 下 ， 甚 至 MPI 库 都 
能 包含 网 络 拓扑 的 足够 信息 以 选取 最 优 的 通信 模式 。 这 就 
是 在 与 简单 的 点 对 点 通信 实现 相同 功能 的 情况 下 优先 选择 
集合 通信 的 主要 原因 ， 人 参见 习题 10.2。 


10.5 理解 节点 内 点 对 点 通信 


当 在 一 个 系统 核 间 和 节点 间 寻 找 最 优 的 线程 和 进程 分 
布 时 ， 通 常 假设 任意 的 MPI 内 点 通信 都 是 无 限 快 的 (参见 
上 面 的 10.4.1 节 )。 令 人 意外 的 是 ， 这 种 假设 通常 是 不 正 
确 的 ， 尤 其 是 涉及 带宽 的 时 候 。 尽 管 今天 一 个 单 核 就 能 使 
用 掉 必 片 内 存 接口 多 个 GB/s 的 带宽 ， 但 是 MPI 实现 的 低 
效 使 用 内 点 通信 仍 会 极 大 地 损害 性 能 。 当 MPI 库 没 有 意 





识 到 两 个 通信 中 的 进程 运行 在 同样 的 共享 内 存 节点 上 时 ， 图 10-16 在 树 状 分 层 归 约 模式 下 ， 
在 这 方面 最 简单 的 “错误 ”就 会 出 现 。 此 时 相对 较 慢 的 网 “通信 开销 与 进程 数 成 对 数 关系 ， 这 是 
络 协议 就 会 被 使 用 以 替换 掉 内 存 间 的 副本 。 即 使 MPI 库 ”由 于 通信 在 每 个 时 间 步 上 是 并 行 的 
在 共享 内 存 可 用 的 情况 下 使 用 了 共享 内 存 通信 ， 仍 然 有 一 系列 可 能 的 策略 : 
口 是 否 会 使 用 非 临时 存储 或 cache 行 0 (I 1.3.1 节 ) 很 可 能 依赖 于 消息 及 缓存 的 大 小 。 
如 果 消息 很 小 并 且 进程 运行 在 一 个 cache 组 里 ， 使 用 非 临 时 存储 通常 事与愿违 ， 因 为 
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它 会 产生 额外 的 内 存 运 输 。 然 而 ， 如 果 没 有 共享 的 cache 或 者 消息 很 大 ， 那 么 数据 将 
不 得 不 写 入 主 存 中 ， 这 时 非 临 时 存储 避免 了 将 会 产生 的 写 分 配 。 
O 数据 传输 可 能 是 “ 单 次 复制 ”的 ， 这 意味 着 一 次 简单 的 块 复制 足以 将 消息 从 发 送 缓冲 
区 复制 到 接收 缓冲 区 中 ( 隐 式 地 实现 了 一 个 同步 集合 点 协议 )， 或 者 使 用 一 个 中 间 (内 
部 的 ) 缓冲 区 。 稍 后 的 策略 需要 额外 的 复制 操作 ， 它 在 网 络 很 快 的 情况 下 可 以 大 幅度 
减少 通信 人 币 宽 。 
口 内 点 内 存 间 的 数据 传输 得 到 了 硬件 的 支持 。 在 共享 cache 对 于 通信 性 能 不 重要 的 情形 
下 ,使 用 专门 的 硬件 设施 会 产生 出 色 的 点 对 点 带宽 [138]。 
上 述 问题 的 MPI 库 行为 有 时 会 受 可 调 参 数 的 影响 ,但 是 带 有 复杂 分 层 的 cache 及 系统 设 
计 的 多 核 处 理 器 结构 的 快速 发 展 也 使 它 成 为 了 一 个 迅猛 发 展 的 主题 。 
同样 ，IMB 套件 的 简单 乒乓 基准 测试 ( 见 4.5.1 节 ) 可 以 用 来 探寻 内 点 MPI 通 信 的 性 质 
[070，0O71]。 我 们 使 用 Cray XT5 系统 作为 一 个 出 色 的 例子 。 一 个 XT5 节点 包含 两 个 AMD 
卑 龙 芯片 ， 每 个 芯片 上 搭载 了 一 个 2MB 的 4 核 L3 组 。 这 些 节 点 通过 一 个 3 维 环形 网 络 连 
$% ( 见 图 10-17 )。 由 于 这 个 结构 ， 人 们 可 以 期 待 三 个 不 同 级 别 的 点 对 点 通信 特征 ， 这 些 特 
征 依赖 于 消息 传输 是 否 发 生 在 L3 HA CATA. 不 同 揪 槽 核 间 (内 点 插 覃 间 ) 或 者 不 
同 节 点 间 (节点 间 )。( 如 果 一 个 节点 含有 大 于 两 个 的 ccNUMA 局 部 域 ， 将 会 有 更 多 的 变化 。) 
图 10-18 展示 了 这 个 系统 的 节点 间 及 内 点 的 测试 数据 。 同 预计 的 一 样 ， 对 于 短 的 和 中 等 长 度 
的 消息 ， 节 点 间 及 内 点 的 通信 特征 相当 不 同 。 同 一 插 权 上 的 两 个 核能 从 共享 的 L3 级 cache 
上 获得 很 大 益处 ， 导 致 了 超过 3GB/s 的 峰值 带宽 。 意 外 的 是 ， 插 槽 间 的 通信 特征 十 分 相似 
(虚线 )， 尽 管 没 有 共享 缓存 并 且 由 于 所 有 数据 通过 主 存 交 换 而 不 应 出 现 高 带宽 “驼峰 ”。 对 
这 一 特殊 效应 的 解释 存在 于 标准 乒乓 基准 测试 执行 的 方式 中 [A89]。 与 4.5.1 4 PRR 





图 10-17 Cray XT5 系统 的 两 个 节点 。 虚 线 框 代表 AMD 符 龙 处 理 器 插 槽 ， 每 个 节点 上 有 两 个 
插 槽 (NUMA 局 部 域 )。 纵 横 互 联 处 实际 上 是 一 个 三 维 环 (网 ) 网 络 
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图 10-18 在 Cray XT5 系统 上 节点 间 、 插 槽 间 内 点 以 及 插 槽 内 通信 的 IMB 乒乓 性 能 。 插 槽 间 
“vanilla” 数 据 的 获得 没有 使 用 循环 缓冲 区 (细节 见 正文 ) 


代码 不 同 ， 真 正 的 IMB 乒乓 代码 组 织 如 下 : 


1 call MPI _ Comm rank (MPI_COMM WORLD, rank, ierr) 

2 if(rank.eq.0) then 

targetID = 1 

S = MPI_Wtime () 

do i=1, ITER 
call MPI_Send(buffer,N,MPI_BYTE,targetID,...) 
call MPI_Recv(buffer,N,MPI_BYTE,targetID,...) 
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最 主要 的 是 ， 为 了 得 到 精确 的 测量 时 间 ， 即 使 是 短 消 息 ， 乒 乓 消息 传输 也 会 重复 几 次 
(ITER)。 记 住 这 一 “特殊 性 ”"， 现 在 可 以 用 它 来 解释 带宽 “驼峰 ”( 见 图 10-19 ) : 进程 0 的 
sendbo 到 进程 1 的 recvbi 之 间 的 传输 可 以 在 接收 端 作为 一 个 单 次 复制 操作 来 实现 ， 即 进程 
1 执行 recvb1(1: 和 N)=sendbo(1:N), NN 为 消息 中 的 字 节 数 。 如 果 N Æ, ARÁ sendb。 中 
的 数据 将 位 于 进程 1 的 cache 中 ， 并 且 不 需要 替换 或 者 修改 这 些 cache 项 除非 sendb 发 生 更 
改 。 然 而 ， 发 送 缓冲 区 在 每 个 进程 的 循环 内 核 内 不 发 生 改变 。 因 此 ， 第 一 次 迭代 后 发 送 缓 冲 
区 位 于 接收 进程 的 cache 内 ， 同 时 cache 内 复制 操作 代替 了 在 内 存 和 超 传 输 网 络 间 的 数据 传 


enddo 


E = MPI 


BWIDTH 
TIME 


else 


Wtime () 
ITER*2*N/ (E-S) /1.d6 ! MBytes/sec rate 
(E-S) /2*1.d6/ITER ! transfer time in microsecs 
! for single message 


targetID = 0 

do i=1, ITER 
call MPI Recv(buffer,N,MPI_BYTE,targetID,...) 
call MPI_Send(buffer,N,MPI_BYTE,targetID,...) 


enddo 
endif 


输 ， 而 发 生 在 随后 的 迭代 中 。 


当 消 息 较 大 时 ， 性 能 下 降 的 原因 有 两 个 : 首先 ，L3 级 cache (2MB) 对 于 容纳 局 部 接收 
缓冲 区 和 远程 发 送 缓冲 区 或 者 两 者 中 的 一 个 都 显得 太 小 了 。 其 次 ，IMB 的 执行 使 得 随 消息 
量 的 增 大 ， 和 迭代 次 数 在 逐渐 下 降 甚至 当 消 息 足 够 大 时 只 完成 一 次 迭代 ， 即 网 络 中 最 初 的 复 


制 操作 。 
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1. 第 一 次 “ 乒 ”" : P1 复制 sendb 到 recvbl， 后 者 驻 
留 在 它 的 高 速 缓存 里 。 


2. 第 一 次 “ 乓 ”: PO 复制 sendb, 到 recvbo， 后 者 驻 
留 在 它 的 高 速 缓存 里 。 


3. BoM “Ee”: P1 在 它 未 经 修改 的 recvb! 上 执行 
高 速 缓存 内 复制 操作 。 


4. 第 二 次 “ 乓 ”: PO 在 它 未 经 修改 的 recvb。 上 执行 
高 速 缓存 内 复制 操作 。 





5. .... 在 高 速 缓存 内 重复 步骤 3 和 4。 
图 10-19 ” 当 消 息 符 合 缓 存 大 小 时 ， 共 享 内 存 系统 内 标准 MPI 乒乓 事件 链 。C0 和 C1 分 别 指 代 
处 理 器 PO 和 P1 的 cache, MO 和 MI1 是 P0 All Pl 的 局 部 内 存 


现实 中 的 应 用 明显 不 能 利用 “性 能 驼峰 ”。 为 了 评估 那些 能 从 大 消息 单 次 复制 中 获 益 的 代 
码 的 内 点 通信 的 真实 潜能 ， 应 该 在 内 友 代 中 再 增加 一 个 数组 sendb; 和 recvb; 互 换 的 乒乓 操作 
( 即 指定 sendb; 为 进程 i 上 第 二 个 MPI Recv() 的 接收 缓冲 区 )， 发 送 进 程 i 再 次 获得 sendb; 的 专 
有 所 属 权 。 为 一 个 蔡 代 方法 是 使 用 “循环 缓冲 区 ”， 这 时 乒乓 发 送 /接收 对 各 自 使 用 一 个 来 自 
于 更 大 的 发 送 与 接收 缓冲 区 的 小 的 滑动 窗口 。 每 次 乒乓 操作 后 移动 窗口 自己 的 大 小 ， 因 此 发 送 
和 接收 缓冲 区 在 内 存 中 的 位 置 是 不 断 变化 的 。 如 果 数 组 的 大 小 比 任何 cache 都 大 ， 那 么 即使 一 
个 单独 的 消息 大 小 适合 cache 并 且 MPI 库 使 用 单 次 复制 传输 ， 也 能 确保 所 有 的 发 送 缓冲 区 是 被 
驱逐 到 内 存 中 的 同一 点 。IMB 基准 测试 允许 通过 一 个 命令 行 选项 而 使 用 循环 缓冲 区 ,结果 的 性 
能 数据 (图 10-18 中 的 方形 ) 显示 没有 超过 1 ; 
缓存 内 消息 大 小 。 

有 趣 的 是 ， 内 点 和 节点 间 带 宽 在 大 消息 
的 情形 下 大 致 达 到 了 同样 的 渐 近 性 能 ， 反 驱 
了 内 点 间 点 对 点 通信 无 限 快 的 普遍 误解 。 尽 
管 这 里 展示 的 是 一 个 具体 的 系统 结构 及 软件 
环境 ,但 这 一 观测 结论 在 很 多 当代 (混合 ) 
并 行 系统 上 具有 普遍 性 ， 尤 其 对 于 “商业 ” 
集群 更 是 如 此 。 然 而 它们 在 具体 细节 上 有 很 
大 变化 ， 因 此 MPI 库 随时 间 不 断 进 化 ， 特 
性 也 随 之 变化 。 在 图 10-21 和 图 10-22 中 我 
们 展示 了 在 一 个 由 双 择 覃 Intel Xeon 5160 节 
点 组 成 (参见 图 10-20 )、 通 过 DDR 极速 互 
联 连 接 的 集群 上 的 乒乓 性 能 数据 。 两 个 图 上 
的 唯一 差别 是 所 使 用 的 MPI 库 的 版 本 号 ( 比 
较 IntelMPI 3.0 和 3.1 )。 对 MPI 实现 的 实际 
修改 细节 被 隐藏 起 来 ， 但 是 对 两 个 版 本 大 的 Cae 
性 能 变化 的 观察 显示 内 点 通信 的 简单 模型 是 ”图 10-20 Xeon 5160 双 插 槽 集群 系统 的 两 个 节点 ， 
存在 问题 的 ， 可 能 会 导致 错误 的 结论 。 带 有 DDR 极速 互联 
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在 小 消息 中 ，MPI 通信 受 延 迟 主导 。 对 于 上 面 描述 的 系统 ，IMB 乒乓 基准 测试 衡量 的 
延迟 同 渐 近 的 带宽 数目 一 起 在 表 10-1 中 展示 。 很 明显 ， 当 进程 运行 在 同一 节点 上 时 延迟 更 
小 (如果 它 们 共享 cache 还 会 更 小 )。 我 们 强调 这 些 基准 测试 在 内 点 与 节点 间 消 息 传输 问题 
上 只 能 给 出 一 个 粗糙 的 描述 。 如 果 多 个 进程 对 同时 进行 通信 (现实 应 用 经 常 如 此 )， 人 情况 将 
变 得 更 加 复杂 。 更 详细 的 分 析 见 参考 文献 [072] 中 混合 MPI/OpenMP 编程 内 容 。 

3000 ， 
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2500 上 o-o 插 槽 间 循 环 缓冲 
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图 10-21 在 一 个 Xeon 5160 DDR-IB 集群 上 ， 使 用 Intel MPI 3.0 的 节点 间 、 内 点 反 槽 间 以 及 纯 
插 模 内 通信 的 IMB 乒乓 性 能 
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图 10-22 ”使 用 Intel MPI 3.1 时 与 图 10-21 相同 的 基准 测试 。 内 点 行为 变化 显著 


表 10-1 在 一 台 Cray XT5 和 一 台 带 有 DDR 极速 互联 的 商用 Xeon 集群 上 进行 
IMB 乒乓 基准 测试 得 到 的 测量 延迟 及 渐进 带宽 


am ET 


模式 XT5 Xeon-|B XT5 Xeon-|B 
MPT3.1 IMPI3.0 IMPI3.1 MPT3.1 IMPI3.0 IMPI3.1 
节点 间 7.40 3.13 3.24 1500 1300 1300 
插 槽 间 0.63 0.76 0.55 1400 750 1300 
插 槽 内 0.49 0.40 0.31 1500 1200 1100 


从 上 面 展示 的 寓 宽 和 延迟 特征 中 必须 得 到 的 最 重要 结论 是 进程 - 核 的 亲密 性 对 在 当今 流 
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行 的 “各 向 异性 ”多 插 槽 多 核 系统 上 的 应 用 性 能 有 重要 影响 (尽管 不 直接 涉及 通信 ， 但 如 6.2 

节 和 7.2.2 节 中 展示 的 那样 ， 类 似 的 效果 也 出 现在 OpenMP 编程 中 )。 因 此 10.4.1 节 中 摘 述 

的 映射 问题 与 内 点 拓扑 级 别 也 变 得 相关 ; 例如 ， 给 定 适当 的 消息 大 小 并 且 只 要 使 用 相 邻 点 通 

信 的 MPI 代码 ， 相 邻 MPI 进程 应 该 位 于 同样 的 cache 组 中 。 当 然 ， 其 他 因素 的 约束 如 到 内 

存 和 NUMA 的 共享 数据 路 径 也 应 该 被 考虑 在 内 ， 这 没有 一 个 普遍 的 原则 。 还 需要 注意 的 是 ， 

在 强 扩 展 情 形 下 可 能 会 发 生 随 处 理 器 数 的 增加 乒乓 曲线 下 降 到 延迟 驱动 的 状态 ， 除 非 进 程 / 

线程 的 布局 基于 小 数量 的 进程 (参加 习题 10.5 ) 。 

习题 

10.1 归 约 和 竟 争 。 对 比 图 10-15 和 图 10-16， 能 和 否 想 出 一 个 网 络 拓扑 结构 使 得 在 两 个 例子 上 的 归 约 操作 
具有 同样 的 性 能 ?假定 一 个 完全 非 阻 塞 的 胖 树 网 络 ， 有 什么 其 他 因素 会 阻碍 分 层 归 约 产生 最 优 的 
性 能 ? 

10.2 ”优化 的 全 局 归 约 。 我 们 将 MPI Allreduce() 表述 为 MPI Reduce() 和 MPL Beast() 的 结合 。 尽 管 这 在 
语义 上 是 正确 的 ， 但 是 这 种 方式 实现 MPI Allreduce() 的 效率 是 很 低 的 。 怎 样 才 能 做 得 更 好 ? 

10.3 急切 与 集合 。 回 顾 5.2 节 中 的 并 行 化 方法 ， 在 哪 种 典型 情况 下 使 用 MPI 的 “急切 ”消息 传输 协 
议会 产生 副作用 ? 可 能 的 解决 方案 是 什么 ? 

10.4 ”立方体 是 否 总 是 最 优 的 ? 在 10.4.1 节 中 我 们 展示 了 如 果 区 域 沿 着 所 有 三 个 坐标 方 癌 切 分 ， 学 环 
交换 带 来 的 强 可 扩展 通信 开销 展示 出 对 工作 进程 数 最 有 利 的 依赖 性 。 请 问 这 种 策略 下 的 通信 开 
销 总 是 最 小 的 吗 ? 

10.5 乘坐 乒乓 曲线 。 对 于 10.4.1 节 中 展示 的 带 有 泽 环 交换 的 强 扩展 和 立方 体 区 域 分 解 ， 导 出 一 个 有 
效 带宽 Be (N, 工 ，w, TB) 的 表达 式 。 假 设 一 个 点 对 点 消息 传输 可 以 用 简单 的 延迟 /带宽 模型 
( 见 4.2 47) 描述 ， 并 且 在 不 同方 向 上 的 通信 以 及 计算 与 通信 间 均 无 重 释 。 

10.6 再 论 非 阻 塞 Jacobi。 在 9.3 节 中 ， 我 们 使 用 非 阻 塞 接收 来 避免 晕 环 交换 的 死 锁 。 然 而 ， 在 任何 
时 刻 ， 每 个 进程 确切 地 有 一 个 非 阻塞 请 求 是 未 完成 的 。 请 问 代 码 可 以 重 构 成 使 用 多 个 未 完成 请 
求 吗 ? 这 样 会 有 什么 缺点 吗 ? 

10.7 结合 的 发 送 与 接收 。MPI_ Sendrecv() 将 标准 发 送 (MPI_ Send()) 和 标准 接收 (MPI Recv) 结合 


在 一 次 调用 中 : 

1 <type> sendbuf(*), recvbuf (*) 

2 integer :: sendcount, sendtype, dest, sendtag, 

3 recvcount, recvtype, source, recvtag, 


comm, status (MPI_STATUS_SIZE), ierror 
call MPI_Sendrecv (sendbuf, send buffer 
sendcount, 


# of items to send 


œ ~ 了 v 和 


sendtype, send data type 

dest, ! destination rank 
9 sendtag, tag for receive 
10 recvbuf, receive buffer 


! 
! 
! 
l! 
! 
11 recvcount, ! # of items to receive 
| 
! 
| 
l 
1 
! 


12 recvtype, ! recv data type 

13 source, source rank 

14 recvtag, ! tag for send 

15 status, ! status array for recv 
16 comm, communicator 

17 ierror) return value 


你 怎样 实现 这 个 函数 以 确保 它 在 环形 转换 通信 模式 下 不 会 产生 死 锁 ? 会 有 其 他 的 积极 影响 吗 ? 

10.8 ”负载 均衡 及 区 域 分 解 。 在 开 边 界 ( 即 非 环形 ) 条 件 下 的 三 维 (立方 体 ) 区 域 分 解 中 ， 负 载 均衡 上 
的 隐 含 通信 开销 是 什么 ?假设 在 整个 并 行 系统 中 MPI 通信 性 质 是 不 变 的 、 各 向 同性 的 ， 并 且 通 
信 不 能 和 计算 重 全 。 为 了 弥补 减少 的 表面 积 而 增 大 最 外 层 子 域 会 有 效果 吗 ? 
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当今 的 大 规模 并 行 计算 机 在 整体 系统 级 别 使 用 专门 的 分 布 式 存储 ， 但 在 作为 基本 组 成 块 
的 计算 节点 内 使 用 共享 内 存 。 尽 管 这 些 混 合 架 构 已 经 使 用 了 超过 十 年 ， 但 大 多 数 并 行 应 用 仍 
然 没 有 注意 到 硬件 架构 而 只 使 用 MPI 实现 并 行 化 。 如 果 人 们 考虑 到 大 多 数 并 行 应 用 、 解 法 
器 及 方法 的 根基 同 MPI 库 本 身 一 样 可 以 追溯 到 “大 ”机 器 (例如 著名 的 Cray T3D/T3E MMP 
系列 ) 是 纯粹 的 分 布 式 存储 的 时 代 ， 这 就 不 再 是 一 件 奇怪 的 事 。 随 后 存在 的 MPI 应 用 和 库 就 
很 容易 传输 到 共享 内 存 系统 ， 因 此 大 多 数 努力 被 花费 在 提升 MPI 的 可 扩展 性 上 。 此 外， 应 
用 开发 者 们 也 委托 MPI 提供 者 开发 高 效 MPI 实现 ， 以 期 能 完全 利用 共享 内 存 系 统 的 能 力 用 
于 高 性 能 内 点 消息 传输 (与 内 点 MPI 相关 的 一 些 问题 参见 10.5 节 )。 因 此 纯 MPI 隐 含 地 假 
定 为 同 节点 间 通 信用 MPI、 节 点 内 并 行 用 OpenMP 的 优化 的 、 良 好 的 混合 MPI/OpenMPI 代 
码 一 样 高 效 。 近 些 年 来 共享 内 存 节点 由 小 节点 发 展 到 中 等 大 小 (每 个 节点 上 不 超过 两 个 或 四 
个 处 理 器 ) 的 过 程 也 帮助 人 们 建立 起 一 个 常识 ， 即 对 于 相同 的 问题 ， 混 合 代码 性 能 通常 不 会 
优 于 只 用 MPI 实现 的 版 本 。 

在 多 核 处 理 器 时 代 ， 在 每 个 核 上 运行 一 个 MPI 进程 是 否 合适 值得 商 椎 。 单 一 芯片 的 并 
行 性 将 会 稳定 增长 ， 同 时 共享 内 存 节 点 将 会 有 高 度 并 行 、 分 层次 以 及 多 核 多 插 槽 结构 。 本 章 
将 会 指明 这 种 发 展 ， 同 时 介绍 在 这 种 新 的 共享 内 存 节 点 上 编写 及 运行 好 的 混合 代码 的 基本 原 
WW. BG, 我 们 将 会 讨论 混合 OpenMP/MPI 编程 可 预料 的 优 缺 点 。 转 到 映射 问题 ， 我 们 将 
会 指出 混合 性 能 同 纯 MPI 代码 一 样 ， 主 要 依赖 的 因素 并 不 直接 与 编程 模型 相关 ， 而 与 线程 、 
进程 到 核 之 间 关 联 相 关 。 此 外 ， 一 个 节点 内 OpenMP 线程 与 MPI 进程 能 够 如 何 精 确 地 相互 
作用 会 有 几 种 选择 ， 这 给 大 多 数 混合 应 用 留 下 了 大 量 的 提升 空间 。 


11.1 基本 MPI/OpenMP 混合 编程 模型 


混合 OpenMP/MPI 编程 模型 的 基本 想法 是 允许 任意 MPI 进程 以 在 纯 OpenMP 程序 中 发 
起 主线 程 同 样 的 方式 发 起 一 组 OpenMP 线程 。 因 此 ， 将 OpenMP 编译 器 指令 插入 到 已 存在 
的 MPI 代码 中 是 构建 第 一 个 混合 并 行程 序 的 一 种 直接 方法 。 按 照 良好 OpenMP 编程 指南 ， 
在 质朴 的 混合 代码 中 计算 密集 型 循环 结构 是 OpenMP 并 行 化 的 首要 目标 。 在 发 起 MPI 进程 
前 ， 同 一 个 纯粹 的 OpenMP 程序 一 样 ， 人 们 不 得 不 指定 每 个 MPI 进程 中 OpenMP 线程 的 最 
大 数量 。 执 行 时 ， 当 每 个 MPI 进程 遇 到 一 个 OpenMP 并 行 化 的 区 域 便 激 活 一 组 线程 (自己 
成 为 主线 程 )。 

从 纯 MPI 转换 到 混合 执行 的 时 候 ，MPI 进程 间 没 有 自动 的 同步 ， 即 在 给 定时 刻 ， 一 些 
MPI 进程 有 可 能 运行 在 完全 不 同 的 OpenMP 并 行 区 域内 ， 同 时 其 他 进程 位 于 程序 的 纯 MPI 
部 分 。MPI 进程 间 的 同步 仍然 受 限 于 恰当 MPI 调用 的 使 用 。 

我 们 定义 两 种 基本 的 混合 编程 方法 [069] : 向 量 模式 和 任务 模式 。 它 们 在 MPI 调用 和 
OpenMP 指令 相互 作用 这 个 级 别 上 有 所 区 别 。 下 面 将 使 用 并 行 三 维 Jacobi 解法 器 作为 例子 简 
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要 介绍 两 种 方法 的 基本 思想 。 


11.1.1 向 量 模式 实现 


在 向 量 模式 的 实现 中 ， 所 有 MPI 子 例 程 位 于 OpenMP 并 行 区 域外 被 调用 ， 即 在 
OpenMP 代码 中 的 “ 串 行 ”部 分 。 这 种 方法 的 主要 优点 是 易于 编程 ， 因 为 一 个 已 有 的 纯 MPI 
代码 可 以 通过 在 耗 时 的 循环 前 增加 OpenMP 工作 共享 指令 以 及 注意 适当 的 NUMA 放置 ( 见 
第 8 章 ) 转换 成 混合 代码 。 一 个 向 量 模式 实现 3 维 Jacobi 解 法 器 核心 的 伪 代 码 展 示 在 代 
码 清 单 11-1 中 。 这 与 9.3 节 中 展 出 的 纯 MPI 并 行 化 版 本 十 分 相似 ， 而 且 的 确 在 MPI 层 和 
OpenMP 指令 间 不 存在 和 干扰。 编程 遵循 各 种 独立 的 范式 指南 。 回 量 模式 策略 与 使 用 MPI 编 
程 的 并 行 向 量 计算 机 相似 ， 后 者 在 并 行 的 内 部 实现 上 利用 了 向 量化 及 多 通道 流水 线 。 典 型 的 
可 以 从 这 种 模式 中 获 益 的 例子 是 那 种 MPI 进程 数 受 限 于 指定 问题 约束 的 应 用 。 通 过 多 线程 
利用 额外 (更 低级 别 的 ) 细 粒 度 级 别 是 超出 MPI 限制 而 增加 并 行 性 的 唯一 方法 [070]。 

代码 清单 11-1 一 个 向 量 模式 下 3 维 Jacobi 解法 器 混合 实现 的 伪 代 码 


do iteration=l1,MAXITER 


!SOMP PARALLEL DO PRIVATE (..) 

do k = 1,N 
! Standard 3D Jacobi iteration here 
! updating all cells 


w% y fF n a we N = 


enddo 

9 !$CMP END PARALLEL DO 
i ! halo exchange 

13 do dir=i, j,k 


15 call MPI_Irecv( halo data from neighbor in -dir direction ) 


16 call MPI_Isend( data to neighbor in +dir direction ) 

17 

18 call MPI_Irecv( halo data from neighbor in +dir direction ) 
19 call MPI_Isend( data to neighbor in -dir direction ) 

20 enddo 

21 call MPI_Waitall( ) 

22 enddo 


11.1.2 任务 模式 实现 


任务 模式 十 分 普遍 并 且 人 允许 在 OpenMP 并 行 区 域内 进行 任意 种 类 的 MPI 通信 。 基 于 消 
息 传递 库 的 线程 安全 需求 ，MPI 标准 在 OpenMP 和 MPI 间 定 义 了 三 个 不 同 级 别 的 冲突 (|S 
见 下 面 的 11.2 节 )。 在 使 用 任务 模式 之 前 ， 代 码 必 须 检查 MPI 库 支 持 哪 种 级 别 。 功 能 性 任务 
分 解 和 通信 和 与 计算 的 解 耦 合 是 任务 模式 可 能 会 派 上 用 场 的 两 个 地 方 。 作 为 后 者 的 一 个 例子 ， 
三 维 Jacobi 解法 硕 核 的 任务 模式 实现 概述 在 代码 清单 11-2 中 。 这 里 主线 程 负责 更 新 边界 单 
元 (6 一 9 行 )， 即 局 部 过 程 子 区 域 的 表面 单元 以 及 与 相 邻 进程 交换 更 新 值 (13 一 20 行 )。 
这 些 可 以 伴随 着 由 剩余 线程 (24 ~ 40) 执行 的 所 有 内 部 单元 更 新 而 同时 完成 。 在 一 次 完全 
更 新 区 域 后 ， 需 要 对 每 个 进程 内 的 所 有 OpenMP 线程 同步 ， 同 时 MPI 同步 只 在 需要 党 环 交 
换 的 最 近 相 邻 进程 间 间 接 发 生 。 

任务 模式 具有 很 高 的 灵活 性 ， 但 是 同时 也 使 代码 变 得 膨胀 并 且 极 大 地 增加 了 编程 的 复 
末 性 。 一 个 主要 的 问题 是 MPI 和 OpenMP 都 没有 内 峙 的 机 制 来 直接 支持 任务 模式 方法 。 因 
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此 ， 人 们 通常 也 在 OpenMP 级 别 上 以 MPI 风 格 的 编程 结尾 。 不 同 的 功能 任务 需要 映射 到 
OpenMP 线程 标识 上 (第 5 行 开 始 的 站 语句 )， 同 时 可 能 会 执行 在 代码 的 不 同 部 分 。 


代码 清单 11-2 


threadID = omp_get_thread_num() 
do iteration=1,MAXITER 


if(threadID .eq. 0) then 


Standard 3D Jacobi iteration 
updating BOUNDARY cells 


ono ee tn è w w= 


After updating BOUNDARY cells 
do halo exchange 


= 5 
So 


一 个 任务 模式 下 3D Jacobi 解法 器 混合 实现 的 伪 代 码 


!SOMP PARALLEL PRIVATE (iteration,threadID,k,j,i,...) 


13 do dir=i, j,k 

14 call MPI_Irecv( halo data from neighbor in -dir direction ) 
15 call MPI_Send( data to neighbor in +dir direction ) 
16 call MPI_Irecv( halo data from neighbor in +dir direction ) 
17 call MPI_Send( data to neighbor in -dir direction ) 
18 enddo 

19 

20 call MPI_Waitall( ) 

21 

22 else ! not thread ID 0 

23 

2 ! Remaining threads perform 

2 ! update of INNER cells 2,...,N-1 

2% ! Distribute outer loop iterations manually: 

27 

28 chunksize = (N-2) / (omp_get_num _threads()-1) + 1 

29 my_k start = 2 + (threadID-1) *chunksize 

30 _k end = 2 + (threadID-1+1) «chunksize-1 

31 _k_end = min(my_k_end, (N-2)) 

32 

33 ! INNER cell updates 

34 do k = my_k_start , my_k_end 

35 do j = 2, (N-1) 

36 do i= 2, (N-1) 

37 eee 

38 enddo 

39 enddo 

40 enddo 


41 endif ! thread ID 
42  !$OMP BARRIER 

43 enddo 

44 !$OMP END PARALLEL 


因此 ， 方 便 的 OpenMP 工作 共享 并 行 化 指令 不 能 再 被 使 用 。 工 作 负 载 不 得 不 在 更 新 内 
部 单元 的 线程 间 手 动 分 配 (28 一 31 行 )。 注 意 ， 到 目前 为 止 我 们 只 提出 了 任务 模式 模型 中 
最 简单 的 一 种 。 依 赖 于 MPI 库 对 线程 级 别 的 支持 ， 人 们 也 可 以 在 一 个 OpenMP 并 行 区 域 
的 所 有 线程 上 使 用 MPI 调用 ， 这 将 进一步 阻碍 可 编程 性 。 最 后 必须 强调 的 是 这 种 混合 方法 
阻止 了 增 量 混合 并 行 化 ， 因 为 一 个 已 有 MPI 代码 的 实质 部 分 需要 完全 重 写 。 这 也 将 一 个 纯 


MPI 及 单一 代码 中 混合 版 本 的 可 维护 性 严重 复杂 化 了 。 
11.1.3 ”案例 分 析 : 混合 Jacobi 解法 器 


在 9.3 节 中 我 们 开发 了 MPI- 并 行 三 维 Jacobi 解法 器 ， 它 是 一 个 评估 混合 编程 在 实际 应 
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用 情形 下 潜在 益处 的 很 好 例子 。 为 了 证 实 前 面 章节 的 讨论 ， 我 们 现在 对 比 向 量 模式 和 任务 
模式 的 实现 。 图 11-1 用 MLUP/s 展示 了 两 种 混合 版 本 以 及 使 用 两 种 不 同 标准 网 络 〈 千 兆 位 
以 太 网 和 DDR 极速 互联 ) 的 纯 MPI 变 体 性 能 数据 。 为 了 最 小 化 亲缘 性 及 位 置 效 应 (对 比 接 
下 来 部 分 的 广泛 讨论 )， 我 们 选取 了 同 9.3.2 节 中 纯 MPI 例子 一 样 的 单 插 槽 双核 集群 。 然 而 ， 
每 个 节点 上 的 两 个 核 自始至终 都 在 使 用 ， 因 而 与 图 9-11 相 比 极速 互联 的 整体 性 能 提高 了 
10% ~ 15% (对 于 480° 的 同样 大 小 区 域 )。 由 于 在 使 用 极速 互联 时 通信 开销 仍旧 几乎 可 以 忽 
略 ， 因 此 纯 MPI 变 体 扩展 性 非常 好 。 混 合 编程 没有 展示 出 获 益 并 不 令 人 奇怪 ， 因 为 极速 互 
联网 络 与 所 有 的 三 种 变 体 (虚线 ) 获得 了 相同 的 性 能 水 平 。 


2500 
一 一 线性 可 扩展 
OO 纯 MPI (GigE) 
2000 — @—ọ “i MPI (InfiniBand) 


D 一 口 向 量 模式 (GigE) 

e—a 问 量 模式 (InfiniBand) 
1500 = oo 任务 模式 (GigE) 

o—@ 任务 模式 (InfiniBand) 


(4,2,2) UC 


性 能 [MLUP/s] 


1000 


(3,2,2) H S 





500 


(2,2,1) ÈQ% (2,2,2) 





0 2 4 6 8 10 12 14 16 
节点 数 
图 11-1 在 与 图 9-10 中 相同 的 单 插 模 双核 集群 上 使 用 DDR 极速 互联 (实心 符号 ) 与 千 兆 位 以 
KA (空心 符号 ) 对 比 的 三 维 Jacobi 解法 器 强 可 扩展 性 〈 问 题 大 小 480°) 的 纯 MPI( 圆 
al) 和 混合 版 本 (方形 和 钻 形 ) 的 并 行 性 能 。 区 域 分 解 拓扑 (每 个 笛 卡 儿 方向 上 的 进 
程 数 ) 在 每 个 数据 点 上 表示 出 来 ( 低 于 混合 版 本 但 高 于 纯 MPI 版 本 )。 细 节 参 见 正文 


对 于 千 兆 位 以 太 网 ， 图 形 完 全 发 生 了 改变 。 甚 至 在 节点 数 较 少 时 ， 数 据 交 换 的 成 本 大 幅 
度 降 低 了 纯 MPI 版 本 的 并 行 可 扩展 性 ， 并 且 在 千 兆 位 以 太 网 和 极速 互联 之 间 有 日 益 增 长 的 
性 能 差距 。 此 时 向 量 模式 毫 无 帮助 ， 因 为 计算 和 通信 仍然 是 串 行 的 ; 相反 性 能 甚至 会 下 降 ， 
因为 在 MPI 通信 期 间 每 个 节点 上 只 有 一 个 核 是 活跃 的 。 然 而 在 任务 模式 下 ， 通 信和 计算 的 
重合 是 很 有 可 能 的 。 在 这 种 情况 下 ， 并 行 的 可 扩展 性 显著 提高 ， 同 时 千 兆 位 以 太 网 的 性 能 接 
近 于 极速 互联 水 平 。 

对 这 个 简单 例子 的 研究 揭示 了 混合 编程 的 最 重要 规则 : 只 有 在 纯 MPI 的 可 扩展 性 不 令 
人 满意 时 考虑 尝试 混合 。 在 一 个 混合 实现 上 下 功夫 并 且 尝 试 比 一 个 完美 扩展 的 MPI 代码 更 
快 是 毫 无 意义 的 。 


11.2 MPI 线程 交互 分 类 
从 单线 程 转换 到 多 线程 执行 可 不 仅仅 如 一 个 通信 库 视 角 那 样 是 一 件 简单 的 事情 。 一 个 
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MPI 库 的 完全 “线程 安全 ”实现 是 一 件 困难 的 任务 。 提 供 共 享 的 连续 消息 队列 或 者 连续 的 
内 部 消息 缓冲 区 是 这 里 提 到 的 两 个 挑战 。 对 于 MPI 库 最 灵活 同时 也 最 糟糕 的 情形 是 MPI 通 
信和 允许 在 任意 时 刻 的 任意 线程 上 发 生 。 由 于 MPI 可 能 实现 在 很 少 甚 至 没有 线程 文 持 的 环境 
下 ， 所 以 现行 的 MPI 标准 (版 本 2.2) 区 分 4 种 不 同 级 别 的 线程 互 操作 ， 从 没有 线程 支持 开 
t (“MPI THREAD SINGLE” ) 到 最 一 般 的 情形 (“MPI THREAD_ MULTIPLE ): 

口 MPI THREAD SINGLE: 只 有 一 个 线程 会 执行 。 

口 MPI THREAD FUNNELED: 进程 可 能 是 多 线程 的 ， 但 只 有 主线 程 会 使 用 MPI 调用 。 

口 MPI THREAD SERIALIZED : 进程 可 能 是 多 线程 的 ， 多 个 线程 都 可 以 使 用 MPI 调 

用 ， 但 一 次 只 有 一 个 ; MPI 调用 不 能 同时 被 两 个 不 同 的 线程 使 用 。 

口 MPI THREAD MULTIPLE: 多 个 线程 在 任意 时 刻 均 可 调用 MPI， 没 有 任何 限制 。 

每 个 混合 代码 应 该 总 是 使 用 MPI_Init_thread() 函数 调用 来 检查 所 需 的 线程 文 持 的 级 别 。 
图 11-2 提供 了 一 个 被 MPI 线程 级 互 操作 允许 的 不 同 混合 MPI/OpenMP 模式 的 概述 图 。 上 面 
提 到 的 并 行 三 维 Jacobi 解法 需 的 两 种 混合 实现 都 需要 MPI 对 MPI THREAD_ FUNNELED 
的 支持 ， 因 为 主线 程 是 唯一 发 起 MPI 调用 的 线程 。 任 务 模式 版 本 也 提供 了 对 由 MPI 多 线程 
执行 引起 的 并 发 症 的 第 一 个 见解 。 更 重要 的 是 ，MPI 不 允许 在 同一 进程 内 的 不 同 线程 间 显 式 
寻 址 。 如 果 在 线程 和 MPI 调用 间 有 一 个 强制 映射 那么 程序 员 将 不 得 不 实现 它 。 这 可 以 通 
过 显 式 地 使 用 OpenMP 线程 号 和 潜在 地 将 它们 与 不 同 消息 标签 连接 来 实现 ( 即 相 同 MPI 进 
程 的 不 同 线程 的 消息 由 唯一 的 MPI 消息 标签 区 分 )。 另 一 个 需要 注意 的 问题 是 同步 MPI 调用 
仅 阻 塞 调用 的 线程 ， 如 果 可 能 的 话 ， 会 允许 相同 MPI 进程 的 其 他 线程 执行 。 还 有 一 些 更 重 


a) b) c) 
图 11-2 MPI 支持 的 线程 级 别 : a) MPL THREAD FUNNELED, b)MPI THREAD SERIALIZED, 
c) MPI THREAD MULTIPLE. aj MPI 模式 MPI THREAD SINGLE 被 省 略 了 。 各 


种 级 别 的 线程 支持 允许 的 典型 通信 模型 被 描述 为 拥有 很 多 OpenMP 线程 的 单一 多 线程 
MPI 进程 
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要 的 指南 需要 考虑 ， 尤 其 在 需要 完全 利用 MPI THREAD MULTIPLE 功能 时 。 在 编写 多 线 
程 MPI 代码 时 ， 通 读 MPI 标准 文档 [P15] 中 的 “MPI 和 线程 ”章节 是 必需 的 。 


11.3 混合 分 解 及 映射 


一 旦 已 经 实现 一 个 混合 OpenMP/MPI 代码 并 且 也 已 申请 计算 资源 申请 ， 那 么 在 局 动 应 
用 程序 之 前 需要 做 两 个 重要 的 决策 。 

首先 ， 人 们 需要 选择 每 个 MPI 进程 上 OpenMP 线程 的 数量 以 及 每 个 节点 上 的 MPI 进程 
数 。 当 然 手 头 的 共享 内 存 节 点 的 能 力 对 选择 强加 了 一 些 限 制 ; 例如 ， 每 个 节点 上 的 线程 总 数 
不 应 该 超出 计算 节点 的 核 数 。 在 一 些 罕见 例子 中 ， 每 个 虚 核 上 运行 一 个 单线 程 ( 如 果 处 理 需 
高 效 地 支持 并 发 多 线程 ， 见 1.5 节 ), 或 者 甚至 使 用 比 可 用 核 数 更 少 的 线程 (如果 每 个 线程 上 
的 内 存 带宽 或 者 cache 大 小 是 一 个 瓶颈 ) 会 是 有 益处 的 。 此 外 ， 待 解决 的 物理 问题 以 及 底层 
硬件 架构 也 强烈 地 影响 着 混合 分 解 的 最 优选 择 。 

MPI 进程 和 OpenMP 线程 间 到 同一 个 计算 节点 上 的 插 槽 和 核 上 的 映射 是 男 一 个 重要 的 
决策 。 关 于 这 点 ， 基 本 的 节点 特征 (插口 数量 以 及 每 个 插口 上 的 核 数 ) 可 以 被 用 作 第 一 准则 ， 
但 即使 是 在 装 有 多 核 处 理 器 芯片 的 相当 简单 的 双 捅 槽 计算 节点 上 也 会 有 一 个 与 分 解 和 映射 
选择 相关 的 大 的 参数 空间 。 在 图 11-3 一 图 11-6 中 ,一 个 具有 代表 性 的 子 集 被 描述 为 由 两 个 
bye OAS. PORK ccNUMA 节点 组 成 的 集群 。 此 处 ， 我 们 隐 含 MPI 库 支 持 MPI THREAD 
FUNNELED 级 别 ， 即 每 个 MPI 进程 的 主 进程 (加 ) 假定 处 于 一 个 突出 的 位 置 。 这 对 于 上 面 
提 到 的 两 个 例子 均 是 有 效 的 并 且 影 响 在 很 多 混合 应 用 中 实现 的 方法 。 


11.3.1 每 个 节点 一 个 MPI 进程 


仅 考 虑 共享 内 存 特 征 ， 人 们 可 以 简单 地 在 每 个 节点 上 指派 一 个 单一 的 MPI 进程 ( mo， 
mi )， 同 时 发 起 八 个 OpenMP 线程 (4o,.…,tr )， 比 如 每 个 核 上 一 个 线程 ( 见 图 11-3 )。 这 在 硬 
件 设计 和 混合 分 解 上 有 一 个 明显 的 不 对 称 ， 这 一 点 会 在 一 些 性 能 相关 的 问题 上 展现 出 来 。 全 
部 线程 进行 同步 代价 昂贵 ， 因 为 它 包 括 片 外 数据 交换 ， 并 且 它 在 多 插 模 和 多 核 设 计 [M41] 
时 会 成 为 一 个 主要 的 瓶颈 (如 何 估 计 OpenMP 中 的 同步 开销 参见 7.2.2 节 )。 在 实现 代码 时 ， 
NUMA 优化 〈 见 第 8 章 ) 需要 被 考虑 在 内 ; 特殊 情形 下 ， 如 果 MPI 进程 (比如 运行 在 LDO ) 
分 配 实 质 性 的 消息 缓冲 区 ， 那 么 典型 的 局 部 性 和 竞争 问题 可 能 会 出 现 。 此 外 ， 主 线程 在 为 
MPI 调用 收集 数据 时 会 产生 非 局 部 数据 访问 。 如 果 可 用 的 节点 间 带 宽 在 单一 MPI 进程 下 不 
能 达到 饱和 ， 那 么 即使 使 用 性 能 较 低 的 核 ， 每 个 节点 上 使 用 单一 MPI 进程 也 是 不 能 充分 利 
用 最 先进 的 互 连 技 术 的 [069]。 缓 解 发 起 MPI 进程 并 阻塞 线程 同 将 MPI 进程 数 归 约 到 最 小 
值 一 样 是 这 个 简单 混合 分 解 模型 的 典型 优势 。 





图 11-3 ”映射 携带 8 个 线程 的 单一 MPI 进程 到 每 个 节点 
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11.3.2 ”每 个 揪 模 一 个 MPI 进程 


分 配 一 个 多 线程 MPI 进程 到 每 个 揪 槽 完美 地 匹配 了 节点 拓扑 结构 (参见 图 11-4 ) 。 然 
而 ， 正 确 地 发 起 MPI 进程 同时 顺 时 针 阻 塞 OpenMP 线程 到 插 槽 上 需要 十 分 的 谨慎 。 现 在 ， 
MPI 通信 将 会 同时 发 生 在 插 槽 间 和 节点 间 ， 并 且 在 应 用 中 应 该 考虑 适当 调度 MPI 调用 来 重 
Be fei HY le] ANAT ANH A [072]。 另 一 方面 ， 由 于 每 个 MPI 进程 都 限制 在 了 一 个 单独 的 局 部 
区 域 ， 因 而 这 种 映射 避免 了 ccNUMA 数据 局 部 性 问题 。 同 时 每 个 MPI 进程 上 的 所 有 线程 对 
于 单一 共享 cache 的 访问 允许 快速 线程 同步 ， 增 加 了 线程 间 cache 重用 的 概率 。 注 意 ， 这 样 
的 讨论 结果 需要 被 推广 到 带 有 共享 的 片 外 级 别 缓存 的 核 组 上 : 对 于 Intel 四 核 芯片 的 第 一 代 ， 
双核 核 组 共享 一 个 L2 级 缓存 ， 无 可 用 的 L3 缓存 。 对 于 这 种 芯片 架构 ， 人 们 应 该 在 每 个 L2 
级 cache 组 上 使 用 一 个 MPI 进程 ， 即 每 个 捅 槽 上 两 个 进程 。 





图 11-4 映射 携带 4 个 线程 的 MPI 进程 到 每 个 捅 槽 (L3 组 或 者 局 部 区 域 ) 


关于 映射 的 一 点 小 的 修改 能 够 容易 地 出 现在 完全 不 同 的 场景 中 ， 此 时 既 不 改变 每 个 节 
点 上 的 MPI 进程 数 ， 也 不 改变 每 个 进程 上 的 OpenMP 线程 数 : MQ, WR T 
循环 线程 分 布 ， 将 会 出 现 图 11-5 中 展示 的 情形 。 在 每 个 节点 上 ， 每 个 插 槽 持 有 两 个 MPI 进 
程 ， 潜 在 地 允许 在 它们 之 间 通 过 共享 cache 进行 快速 通信 。 然 而 ， 每 个 插 模 上 不 同 MPI 进程 
的 线程 是 相互 交错 的 ， 这 使 得 高 效 ccNUMA 编程 自身 成 为 一 个 挑战 。 此 外 ， 一 个 完全 不 同 
的 负载 特性 被 指派 到 同一 节点 上 的 两 个 插 槽 。 从 线程 同步 和 远程 数据 访问 的 角度 ， 这 一 切 接 
近 于 一 个 最 坏 的 情形 。 






图 11-5 ”映射 两 个 MPI 进程 到 每 个 节点 上 同时 实现 了 一 个 循环 的 线程 分 布 


11.3.3 每 个 插 槽 多 个 MPI 进程 
当然 ， 人 们 可 以 继续 增加 每 个 节点 上 MPI 进程 的 数量 同时 相应 地 减少 线程 的 数量 ， 最 


后 终止 于 每 个 MPI 进程 上 的 两 个 线程 。 线 程 在 分 块 方面 的 选择 导致 了 图 11-6 中 呈现 出 的 有 


利 情 形 。 虽 然 ccNUMA 问题 在 这 里 是 次 要 的 ,但 MPI 通 信 会 在 所 有 潜在 的 级 别 上 展现 出 
X: 插 槽 内 、 插 槽 间 以 及 节点 间 。 因 此 ， 以 最 小 化 最 慢 通 信 路 径 访问 的 方式 将 计算 区 域 映 射 
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到 MPI 进程 是 一 种 潜在 的 优化 策略 。 这 种 分 解 方法 对 受 限 于 MPI 可 扩展 性 的 内 存 密集 型 代 
码 也 是 有 益 的。 通常 一 半 的 线程 数 已 经 能 够 使 单一 插 槽 上 的 主 内 存 带 宽 达 到 饱和 ， 使 用 携 市 
多 线程 的 MPI 进程 能 从 数量 较 少 的 MPI 进程 中 获得 一 点 性 能 增加 。 作 为 一 种 选择 ， 功 能 分 
解 可 以 被 应 用 于 显示 地 隐藏 MPI 通信 (参见 上 面 描述 的 Jacobi 解法 器 的 任务 模式 实现 )。 很 
明显 ， 对 于 这 个 分 解 ， 大 量 不 同 的 映射 策略 也 是 可 用 的 。 然 而 ， 由 于 上 面 多 次 强调 的 对 称 参 
数 ， 图 11-6 中 的 映射 通常 会 提供 最 好 的 性 能 ， 因 此 应 该 被 最 先 测试 。 


mE 





图 11-6 映射 两 个 MPI 进程 到 一 个 单一 插 槽 ， 其 中 每 个 进程 有 两 个 线程 


不 幸 的 是 ， 在 编写 时 大 多 数 MPI 实现 对 于 规定 到 各 上 自 核 上 不 同 的 映射 策略 以 及 正确 的 
阻塞 线程 的 支持 少 得 可 怜 。 即 便 存 在 一 些 支 持 ， 通 常 也 被 限定 于 MPI PS EE Fe EA o 
因此 ， 正 确 地 发 起 混合 应 用 更 多 的 是 程序 员 的 责任 ， 但 是 对 于 混合 代码 预先 的 性 能 研究 是 不 
可 或 缺 的 。 有 关上 映射 和 亲和力 问题 的 更 多 信息 参见 10.4.1 节 及 附录 A。 


11.4 混合 编程 的 优势 和 劣势 


由 于 较 早 提 到 的 原因 ， 混 合并 行 MPIOpenMP 方法 在 并 行 应 用 中 仍然 很 少 能 最 大 限度 地 
实现 。 因 此 ， 没 有 完整 的 可 用 理论 保证 混合 方法 对 于 代码 重 构 或 者 从 头 设 计 一 个 完全 混合 的 应 
用 能 够 抵偿 额外 的 成 本 便 不 再 让 人 感到 惊讶 。 然 而 到 目前 为 止 ， 已 经 确定 了 混合 方法 相对 于 纯 
使 用 MPI 的 一 些 潜在 的 基本 优势 和 劣势 。 下 面 ， 我们 简要 总 结 它们 中 最 重要 的 几 个 。 以 下 每 
个 主题 的 影响 很 大 程度 上 将 会 依赖 于 特定 的 应 用 代码 甚至 是 输入 数据 的 选择 。 当 且 仅 当 纯 MPI 
代码 的 可 扩展 行 不 能 提供 令 人 满意 的 并 行 性 能 时 ， 对 那些 问题 的 仔细 调查 是 必需 的 。 


11.4.1 改善 的 收敛 速度 


很 多 和 迭 代 解 法 右 包 含 循环 间 的 数据 依赖 性 ， 例 如 ， 著 名 的 经 典 Gauss-Seidel 格式 (参见 
6.3 节 )。 如 果 标 准 的 区 域 分 解 用 于 MPI 并 行 化 ， 那 些 依赖 性 会 在 边界 单元 上 打破 。 虽 然 算 
法 仍然 收敛 到 正确 的 稳 态 解 ， 但 收敛 速度 将 会 随 着 子 区 域 数量 的 增加 而 下 降 (对 于 强 扩 展 情 
形 )。 此 处 ， 一 个 混合 方法 会 帮助 减少 子 区 域 的 数量 同时 提高 收敛 速度 。 例 如 在 [A90] 的 一 
个 带 有 隐 式 解法 器 的 CFD 应 用 中 ， 这 种 现象 被 展示 出 来 : 在 每 个 节点 上 只 发 起 一 个 MPI H 
E (在 一 个 子 域内 计算 )， 同 时 在 节点 内 部 使 用 OpenMP， 这 种 方法 加 速 了 并 行 算法 的 收敛 。 
这 个 例子 清楚 地 表明 并 行 加 速 比 或 者 整体 浮 点 性 能 是 量化 “混合 红利 ”的 错误 衡量 方法 。 解 
的 运行 时 间 则 是 一 种 合适 的 蔡 代 方案 。 


11.4.2 ”共享 cache 中 的 数据 重用 


对 单一 共享 cache 上 线程 操作 使 用 共享 内 存 编程 的 模型 极 大 地 扩展 了 优化 机 会 : 对 于 具 
有 篆 规 模板 依赖 性 的 友 代 解法 器 ， 如 Jacobi 或 者 Gauss-Seidel 类 型 ， 被 第 一 个 线程 导入 或 修 
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改 的 数据 可 以 被 cache 中 另 一 个 线程 读 取 ， 并 且 在 被 驱逐 到 主 存 前 再 次 更 新 。 这 个 技巧 导致 
了 一 个 高 效 且 自然 的 并 行 临 时 阻塞 ， 但 需要 一 个 共享 地 址 空间 来 避免 缓存 数据 和 元 余数 据 复 
制 的 双 缓 冲 (正如 将 要 被 一 个 纯 MPI 实现 强制 执行 那样 ) [052, 053, 063]. X TEKMI 
并 行 代码 中 实现 这 样 供 选 择 的 多 核 方面 策略 ， 混 合并 行 化 是 强制 性 的 。 


11.4.3 ”利用 额外 级 别 的 并 行 性 


很 多 计算 任务 提供 了 一 个 问题 内 在 的 粗 粒 度 并 行 级 别 。 一 个 突出 的 例子 是 一 些 多 层 
NAS 并 行 基准 测试 ， 其 中 只 有 相当 少量 的 区 域 对 于 MPI 并 行 是 可 用 的 (从 几 十 到 256 )， 和 额 
外 的 并 行 级 别 可 以 通过 MPI 进程 的 多 线程 执行 来 利用 [070]。 在 这 些 级 别 上 的 潜在 负载 均衡 
也 可 以 通过 OpenMP 灵活 地 调度 变 体 (如 在 OpenMPI 中 的 “指导 性 的 ”或 者 “动态 的 ”) 来 
高 效 解 决 。 


11.4.4 BB MPI 通信 和 计算 


MPI 提供 了 借助 非 阻 塞 MPI 通信 重生 通信 和 计算 的 灵活 性 ， 即 先进 行 一 些 计 算 ， 随 后 检 
验 MPI 调用 是 否 完成 。 然 而 ， 正 如 10.4.3 节 中 描绘 的 那样 ， 即 使 在 使 用 非 阻 塞 调用 的 情况 下 ， 
今天 的 大 部 分 MPI 库 并 不 执行 真正 的 异步 传输 。 如 果 MPI 只 在 库 代 码 执行 的 时 候 才 向 前 推进 
(完全 符合 MPI 标准 )， 那 么 消息 传递 开销 和 计算 实际 上 将 被 串 行 化 。 作 为 补救 ， 程 序 员 在 每 个 
MPI 进程 上 使 用 单一 线程 以 异步 地 执行 MPI 通信 。 有 具体 例子 见 上 面 的 11.1.3 节 。 


11.4.5 减少 MPI 开销 


MPI 通信 开销 对 整体 运行 时 间 的 贡献 会 随 看 MPI 进程 数 的 增加 而 迅速 增加 ， 尤 其 对 于 
强 扩展 情形 。 同 样 ， 区 域 分 解 方法 可 以 作为 一 个 范式 。 局 部 子 区 域 上 表面 积 〈 通 信 ) 和 体积 
(计算 ) 的 比率 随 着 进程 数 的 增加 变 得 更 糟 ( 见 10.4 节 )， 与 此 同时 平均 的 消息 大 小 变 小 。 这 
也 可 以 降低 有 效 通信 带宽 (参见 习题 10.5 )。 同 样 ， 用 于 尝 环 层 交 换 的 整体 缓冲 区 的 大 小 也 
随 MPI 进程 数 的 增加 而 增 大 ， 因 而 在 处 理 需 数目 很 多 时 会 占用 相当 大 一 部 分 的 主 存 。 通 过 
混合 编程 减少 MPI 进程 的 数量 会 有 助 于 增加 MPI 消息 长 度 同 时 减少 整体 内 存 占用 。 


11.4.6 ”多 级 别 开 销 


通常 情况 下 ， 编 写 一 个 真正 高 效 且 可 扩展 的 OpenMP 程序 是 完全 不 容易 的 ， 尽 管 增 量 
并 行 化 方法 表面 上 看 似 人 简单 。 在 第 7 章 中 我 们 已 经 演示 了 一 些 潜在 的 缺陷 。 在 一 个 更 抽象 的 
层次 上 ， 引 入 第 二 个 并 行 级 别 到 程序 中 也 带 来 了 一 个 新 的 层 ， 在 这 个 层 上 基本 的 可 扩展 限 
制 ， 如 Amdahl 定律 ， 必 须 被 考虑 。 


11.4.7 ”向量 模式 下 批量 同步 通信 


在 混合 向 量 模 式 中 ， 所 有 的 MPI 通信 于 OpenMP 并 行 区 域外 发 生 。 换 言 之 ， 所 有 在 多 
线程 进程 中 进出 的 数据 只 在 所 有 线程 都 已 经 同步 后 才 开 始 传输 : 通信 在 节点 级 别 上 是 批量 同 
步 的， 单一 线程 在 MPI 向 前 推进 的 时 候 没 有 机 会 进行 有 用 的 工作 (除了 支持 真正 的 异步 消息 
传输 情形 ; 更 多 信息 参见 10.4.3 节 )。 相 反 ， 共 享 网 络 连接 的 一 些 MPI 进程 可 以 使 用 它 任意 
多 次 ， 这 经 第 会 导致 计算 和 通信 的 自然 重 厂 ， 尤 其 是 在 允许 急切 交付 的 情形 下 。 即 使 纯 MPI 
程序 也 是 批量 同步 的 (如 9.3 节 中 展示 的 MPI- 并 行 Jacobi 解法 器 )， 运 行 时 不 同 进程 间 的 细 
微 变化 也 可 能 导致 至 少 一 部 分 的 重音 。 
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本 书 已 经 多 次 强调 过 亲缘 性 机 制 的 重要 性 ， 例 如 在 考虑 cache K/H SE HL BH, 
OpenMP 并 行 化 开销 、ccNUMA 局 部 性 、MPI 节点 内 通信 以 及 MPI/OpenMP 混合 编程 效率 
时 都 需要 考虑 共享 存储 系统 中 线程 和 进程 对 核 的 绑 定 。 一 般 情 况 下 ， 需 要 考虑 该 问题 的 以 下 
三 个 方面 问题 : 

口 拓扑 : 与 处 理 器 体系 结构 和 操作 系统 无 关 ， 所 有 系统 使 用 一 些 编号 方式 ， 对 每 个 硬件 
线程 (如 果 SMT 可 用 )、 计 算 核 和 NUMA 局 部 性 域 设 置 一 个 唯一 的 整数 (或 者 一 组 
整数 )。 局 部 性 控制 一 些 系统 工具 和 库 利用 这 些 整数 ， 所 以 需要 了 解 编号 方案 。 通 常 
为 了 方便 起 见 ， 系 统 中 有 一 个 抽象 层 ， 人 允许 用 户 指定 例如 插 柳 、cache 组 等 构件 。 在 
最 低层 次 上 我 们 利用 核 ID ， 这 个 数值 可 能 表示 一 个 真实 的 物理 核 ， 或 者 如 果 处 理 需 
支持 超 线程 ， 该 值 也 可 能 表示 一 组 硬件 线程 。 有 时 逻辑 计算 核 也 表示 硬件 线程 。 

口 线程 亲缘 性 : 在 确定 哪些 线程 或 者 进程 需要 被 绑 定 之 后 ， 绑 定 操 作 必 须 通 过 程序 上 自 
身 (利用 合适 的 库 或 者 系统 调用 ) 或 者 外 部 工具 进行 显 式 设置 。 一 些 操作 系统 可 以 维 
护 线程 和 处 理 咒 核 间 的 强 末 缘 性 ， 亦 即 一 个 线程 (或 者 进程 ) 将 持续 在 初始 被 分 配 的 
处 理 器 核 上 执行 计算 ， 但 是 其 他 系统 进程 或 者 交互 式 方法 会 改变 线程 所 在 的 硬件 核 ， 
这 就 不 能 保证 初始 分 配 的 状态 依然 成 立 。 线 程 亲 缘 性 的 一 个 指标 为 性 能 抖动 数值 ( 亦 
即 不 同 配置 下 的 性 能 差异 )。 

口 NUMA 配置 : (内 存 亲 缘 性 ，memory affinity) ccNUMA 系统 中 结合 线程 亲缘 性 使 用 
8.1.1 节 提 到 的 首次 分 配 策略 ， 但 是 有 时 需要 更 为 细 粒 度 的 控制 ， 例 如 动态 调度 中 和 负 
载 均衡 的 需求 ， 可 能 需要 轮 询 分 配 策略 ， 和 线程 绑 定 一 样 ， 这 可 以 通过 程序 控制 或 
者 一 些 独 立 工 具 完 成 。 

代码 清单 A-1 WH/UG Intel Nehalem 系统 上 likwid-topology-g 的 输出 结果 


2 CPU name: Intel Core i7 processor 

3 CPU clock: 2666745374 Hz 

I FI TR RIOR FOR OT TREKS ee ey 
6 Hardware Thread Topology 

(Cee ee ee ee eee ee eee ee e e de e e e e e e 
8 de 2 

9 Cores per socket: 4 

10 Threads per core: 2 

i 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
12 HWThread Thread Core Socket 

13 0 0 0 0 

14 1 0 1 0 

15 2 0 2 0 

16 3 0 3 0 

17 4 0 0 1 

18 5 0 1 1 

19 6 0 2 1 

20 7 0 3 1 

21 8 1 0 0 
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22 9 1 1 0 

23 10 1 2 0 

24 11 1 3 0 

25 12 1 0 1 

26 13 1 1 i 

27 14 1 2 1 

28 15 1 3 1 

29 ee em ep mT Pp RD a a a a 
30 Socket 0: (08192410311 ) 

31 Socket 1: ( 4 12 5 13 6 14 7 15 ) 
ea 
34 Se ee 次 
35 Cache Topology 

36 Se a eo oo ee ee ee ed 
37 Level: 1 


38 Size: 32 kB 
39 Cache groups: (08) (19) (210) (311) (412) (513) (614) (715 ) 


42 Size: 256 kB 
43 Cache groups: (08) (19) (210) (311) (412) (513) (614) (7185 ) 


44 ----------------- - - - - 
45 Level 3 

46 Size: 8 MB 

47 Cache groups: (0819210311) ( 4 12 5 13 6 14 7 15 ) 
ÄB O a Re ee ER S E er en 
50 ee ee ee ee ee ee eo 
51 Graphical: 

52 ee ee ee ee ee eee eee eee eee eee eee eee cee eee ee ee eee ee eee ee es 
53 Socket 0: 

54 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 = 

55 | +----- + +----- + 十 一 一 一 一 一 + 十 一 一 一 一 一 + | 

56 IEO 8b iI Sh 12 20k TS ALT | 

57 | +----- + 十 一 一 一 一 一 + 十 -一 一 一 ~ + 十 一 一 一 一 一 + | 

58 | + 一 一 一 一 一 + 十 一 一 一 一 一 + 十 一 一 一 一 一 + 十 一 一 一 一 一 + | 

59 | | 32kB| | 32kB] | 32kB| | 32kBi | 

60 | +----- + 十 一 一 一 一 一 + 十 一 一 一 一 一 + 十 一 一 一 一 一 + | 

61 | + 一 -一 一 一 + 二 一 一 一 一 一 + +----- + +----- + | 

62 | {256kB] |256kB| |256kB| |256kB/ | 

63 | +----- 十 “十 一 一 一 一 一 + 十 一 一 一 一 一 + 十 一 一 一 一 一 + | 

64 | = + | 

65 i | 8MB | | 

66 | ann + | 

67 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

68 Socket 1: 

69 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 

70 | +----- + 十 -一 一 一 一 + 十 一 一 一 一 一 + 十 ~ 一 一 一 一 + | 

71 | 14 12!) 15 13) 16 14) 17 3S | 

72 | +----- + 十 一 -一 一 一 + 二 一 一 一 一 一 + 十 -一 一 一 一 + | 

73 | +----- + 十 一 一 一 一 一 + 十 一 一 一 一 一 + +----- + | 

74 | | 32kBi | 32kB| | 32kB| | 32kB| | 

75 | +----- + 十 一 一 一 一 一 + 十 一 一 一 一 一 + 十 一 一 一 一 一 + | 

76 | +----- + 十 一 一 一 一 一 + 十 一 一 一 一 一 + 二 一 一 一 一 一 + | 

77 | |256kB| |256kBi] |256kB| |256kBi | 

78 | + 一 一- 一 一 + 十 一 一 一 一 一 + + 一 一 一 一 一 + +----- + | 

79 | ference mn SESE Ree Eee eE + | 

80 | | 8MB ay 

81 | 上 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + | 

82 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 





许多 用 户 甚 至 是 应 用 程序 员 都 有 一 个 错误 的 观点 ， 即 操作 系统 负责 处 理 这 些 事务 ， 但 是 
在 高 性 能 计算 领域 这 些 问题 需要 用 户 显 式 处 理 , 但 是 困难 之 处 在 于 同时 处 理 拓 扑 、 亲 缘 性 和 
NUMA 需要 考虑 系统 特征 。 虽 然 有 很 多 提供 自动 化 亲缘 性 控制 工具 [T30] 的 尝试 ， 但 是 我 
们 认为 现在 仍然 需要 对 系统 拓扑 结构 进行 深入 了 解 并 进行 手工 配置 。 

由 于 Linux 系统 在 高 性 能 计算 集群 领域 的 主流 地 位 (TOP 500[W121] 中 Linux 系统 的 份 
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额 比 例 从 1998 年 的 0% 增长 到 2009 年 的 89% )， 本 章 介 绍 x86 Linux 系统 上 的 工具 和 库 。 我 
们 忽略 编译 器 相关 的 亲缘 性 机 制 ， 因 为 这 些 内 容 已 经 在 编译 需 手 册 中 提供 。 
注意 本 章 提 供 的 工具 和 库 是 根据 作者 经 验 来 选择 的 ， 读 者 可 能 需要 不 同 的 工具 。 


A.1 拓扑 


多 核 拓 扑 是 指 基 于 多 核 的 共享 内 存 计算 机 和 计算 核 、cache、 插 槽 以 及 数据 通路 的 逻辑 
配置 。1.4 市 给 出 了 多 核 芯 片上 cache 组 的 组 织 结 构 ，4.2 节 包 含 了 构建 共享 储存 计算 机 的 不 
同方 式 ， 通 稼 官方 手册 中 提供 了 系统 中 多 核 芯片 和 NUMA 域 的 详细 组 织 方式 。 

然而 ， 由 于 操作 系统 内 核 或 者 固件 (BIOS) 版 本 的 不 同 ， 因 此 硬件 映射 核 ID 的 方 
式 也 能 随 之 改变 ， 所 以 首先 需要 确定 每 个 核 在 系统 中 的 实际 物理 位 置 。 命 令 “ cat/proc/ 
cpuinfo” 的 输出 信息 非常 有 限 ， 因 为 它 仅 提供 有 限 的 cache 信息 。LIKWID 高 性 能 计算 工 
HÆ [T20,W120] 中 的 likwid-topology 命令 可 以 提供 更 为 全 面 的 信息 ， 表 A-1 显示 了 该 命令 
在 两 路 四 核 Intel Nehalem (core i7 体系 结构 ，SMT) 节点 上 带 有 “-g” 参 数 的 输出 ， 该 工 
具 显 示 了 所 有 的 硬件 线程 、 物 理 核 、cache Ky) Als. ZEA, RIAAN, ES 
处 理 右 有 四 个 核 并 且 每 个 核 有 两 个 硬件 线程 (8 一 10 行 )。13 一 28 行 显示 了 物理 核 到 逻辑 
核心 的 映射 方式 : 硬件 线程 人 E(K © {0...7}) 和 大 + 8 属于 一 个 相同 的 物理 核 ，37 ~ 47 行 显 
示 了 cache 组 及 其 大 小 : 一 个 插 槽 内 的 所 有 核 共 享 一 个 L3 级 cache， 每 个 核 独 享 一 个 LI1 和 
L2cache 组 。 从 53 行 开始 的 最 后 这 些 内 容 总 结 了 所 有 这 些 信 息 。 带 有 “ -c” 参 数 的 likwid- 
topology 命令 可 以 提供 更 为 全 面 的 cache 组 织 信息 ， 包 括 相 联 度 、cache 行 大 小 等 (只 针对 
L3 级 cache): 


Level: 3 

Size: 8 MB 

Type: Unified cache 

Associativity: 16 

Number of sets: 8192 

Cache line size: 64 

Non Inclusive cache 

Shared among 8 threads 

Cache groups: (0 81 92 10 3 1L} { 4 12 5 13 6 14 7 15 J 
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LIKWID 软件 包 支 持 现 在 的 Intel 和 AMD x86 处 理 器 ， 此 外 ， 类 似 2.1.2 节 展 示 的 内 容 ， 
它 还 可 以 读 取 运行 时 相关 的 硬件 计数 器 信息 ， 并 且 显 式 设置 线程 和 硬件 核心 的 亲缘 性 (参考 
下 面 章节 内 容 )。 


A.2 线程 和 进程 分 布 


由 于 操作 系统 不 了 解 用 户 程序 的 性 能 特征 ， 因 此 不 能 依赖 默认 的 操作 系统 对 于 线程 布局 
的 配置 。 当 了 解 硬 件 线程 、 核 、cache 和 插 槽 拓扑 等 信息 之 后 ， 用 户 可 以 显 式 指 定 适 用 于 并 
行 应 用 程序 性 能 特征 的 线程 和 核 间 的 映射 绑 定 关系 。 例 如 带宽 受 限 型 应 用 的 线程 分 到 不 同 处 
理 器 上 可 能 会 提升 性 能 ， 相 反 ， 如 果 并 行程 序 的 多 个 MPI 邻接 进程 间 需 要 进行 频繁 同步 操 
作 ， 需 要 将 它们 尽量 分 配 到 相 邻 的 硬件 核心 组 上 以 便 加 速 同 步 操 作 。 除 非 显 式 指出 ， 否 则 下 
面 我 们 将 不 区 别 线程 和 进程 两 个 术语 。 本 节 中 所 有 实例 的 硬件 平台 为 在 A.1 节 中 提 到 的 集群 
系统 。 
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A.2.1 外 部 亲缘 性 工具 


如 果 不 能 改变 应 用 程序 代码 ， 就 只 能 利用 外 部 工具 配置 程序 亲缘 性 ， 并 且 由 于 基于 代 
码 的 亲缘 性 不 具备 可 移植 性 ， 因 此 这 是 常用 的 方法 。Linux 操作 系统 提供 taskset 工具 (属于 
util-linux-ng 软件 包 的 一 部 分 )， 人 允许 用 户 通过 设置 掩 码 来 调整 进程 的 亲缘 性 : 

1 taskset [options] <mask> <command> [args] 

掩 码 可 以 通过 一 组 核 ID 列表 或 位 模式 来 设置 (需要 在 命令 行 中 加 -c 选项 )， 下 面 的 例子 
限制 了 一 个 应 用 程序 的 线程 为 核 ID 0 ~ 7: 


1 $ export OMP_NUM_THREADS=8 
2 $ taskset -c 0-7 ./a.out # alternative: taskset OxFF ./a.out 


需要 确定 所 有 的 线程 都 在 8 个 不 同 的 核 上 运行 ， 但 是 并 没有 绑 定 线程 到 核 的 映射 关 
系 ， 线 程 可 以 在 掩 码 确 定 的 处 理 器 核心 范围 内 迁移 。 虽 然 操作 系统 尽量 阻止 多 个 线程 运行 
在 同一 个 核 上 ,但 是 映射 关系 仍然 可 能 破坏 NUMA 局 部 性 。 同 样 ， 如 果 设 置 OMP NUM 
THREADS=4， 那 么 依然 不 能 确定 8 个 核 中 的 哪 4 个 核 被 利用 。 总 之 ，taskset 工具 更 适用 
于 绑 定 单线 程 进程 。 但 是 当 一 组 线程 需要 运行 于 十 分 对 称 的 环境 时 ， 例 如 一 组 L2 级 cache, 
也 可 以 使 用 taskset。 

在 产品 环境 中 ，taskset 之 类 的 工具 应 该 应 用 于 MPI 启动 进程 (REI mpirun 或 者 其 他 类 
似 命 令 )。 

1 $ mpirun -npernode 8 taskset -c 0-7 ./a.out 


选项 -npernode 8 指定 每 个 节点 启动 8 个 进程 。 通 过 taskset 的 掩 码 设置 0xFF， 每 个 
MPI 进程 (a.out) 只 能 在 同一 组 8 个 不 同 物理 核 上 运行 ， 但 是 如 前 所 述 ， 进 程 可 以 在 内 的 核 
上 随意 迁移 。 只 有 当 默 认 映 射 能 够 提供 较 好 性 能 时 才 不 会 降低 NUMA 局 部 性 ， 并 且 只 有 当 
每 个 taskset 外 部 命令 均 能 正常 配置 MPI 进程 时 这 种 方法 才 有 效 。 

守护 线程 并 不 真正 执行 应 用 程序 代码 ， 因 此 不 应 该 被 绑 定 ， 所 以 外 部 亲缘 性 控制 工具 需 
要 确定 守护 线程 的 位 置 和 局 动 时 间 KiE) FARE, Linux 下 的 OpenMP 实现 基于 
POSIX 线程 ， 并 日 OpenMP 线程 在 首次 进入 并 行 区 时 通过 调用 pthread_create() phi BUA a, 
通过 重 载 pthread_create() 果 数 就 可 以 目 行 配置 守护 进程 [T31]， 这 也 适用 于 MPI/OpenMP 混 
合 程序 ， 不 过 配置 附加 的 MPI 进程 会 增加 复杂 性 。LIKWID 工具 集 [T20，W120] 包含 一 个 
称 为 likwid-pin 的 轻 量 级 程序 ， 可 以 将 进程 中 的 某 个 线程 绑 定 到 一 个 节点 的 固定 核 上 。 但 是 
如 果 想 跳 过 守护 进程 ， 需 要 显 式 配置 掩 码 。 


1 likwid-pin -s <hex skip mask> -c <core list> <command> [args] 


掩 码 中 的 第 位 与 第 b+1 个 调用 pthread create() 启动 的 线程 相关 ， 如 果 设 置 该 位 ， 相 
应 的 线程 将 不 会 被 绑 定 。 命 令 行 中 的 核 列 表 与 taskset 的 使 用 方式 相同 。 对 于 一 个 由 Intel 编 
译 器 生成 的 OpenMP 程序 的 典型 配置 方式 如 下 : 


1 $ export OMP_NUM_THREADS=4 

2 $ export KMP_AFFINITY=disabled 

3 $ likwid-pin -s 0xl -c 0,1,4,5 ./stream 
4 [likwid-pin] Main PID -> core 0 - OK 


6 Double precision appears to have 16 digits of accuracy 
7 Assuming 8 bytes per DOUBLE PRECISION word 


BRR P tothe FRE 203 


9 Array size = 20000000 
i0 Offset = Ig 
11 The total memory requirement is 457 MB 

2 You are running each test 10 times 

3 =-* 

14 The *best* time for each test is used 

is *EXCLUDING+* the first and last iterations 

16 [pthread wrapper] PIN_MASK: 0->1 1->4 2->5 

17 [pthread wrapper] SKIP MASK: 0x1 

is [pthread wrapper 0] Notice: Using libpthread.so.0 


19 threadid 1073809728 -> SKIP 

2 [pthread wrapper 1] Notice: Using libpthread.so.0 
21 threadid 1078008128 -> core 1 - OK 

2 [pthread wrapper 2] Notice: Using libpthread.so.0 
23 threadid 1082206528 -> core 4 一 OK 

2 [pthread wrapper 3] Notice: Using libpthread.so.0 
25 threadid 1086404928 -> core 5 - OK 

2% [... rest of STREAM output omitted ...] 


这 是 著名 的 STREAM 基准 测试 集 在 两 个 Nehalem 处 理 器 上 运行 4 线程 的 输出 结果 ， 为 
了 阻止 程序 使 用 Intel 编译 器 默认 配置 亲缘 性 ， 必 须 在 程序 运行 前 (第 2 行 ) 设置 KMP_ 
AFFINITY 外 党 变量 。 前 级 为 “ [likwid-pin] ”或 “ [pthread wrapper] ”的 行为 likwid-pin 的 
诊断 输出 。 在 局 动 其 他 线程 之 前 ， 第 4 行 绑 定 主线 程 到 第 一 个 核 上 。 在 第 一 个 OpenMP 并 
行 区 ， 重 载 的 pthread_create() 函数 输出 该 线程 所 运行 的 核 ID (第 16 行 ) 和 掩 码 (第 17 FF), 
但 是 第 一 个 被 启动 的 线程 不 应 被 绑 定 (这 与 Intel 编译 器 相关 )， 所 以 外 部 库 跳 过 了 该 线程 
(第 19 行 )， 其 他 线程 都 依据 处 理 器 列表 而 进行 绑 定 。 

在 MPI/OpenMP 混合 程序 中 ，MPI 库 需要 产生 一 些 附 加 线程 并 且 相 应 的 掩 码 也 需要 改 
AS, Xf Intel MPI 和 Intel 编译 需 而 言 ， 运 行 混合 程序 代码 时 需要 按 下 述 方式 使 用 likwid-pin 
TA: 


1 $ export OMP_NUM_THREADS=8 
2 $ export KMP_AFFINITY=disabled 
3 $ mpirun -pernode likwid-pin -s 0x3 -c 0-7 ./a.out 


每 个 节点 启动 一 个 MPI 进程 (由 于 有 -pernode 选项 )， 每 个 进程 有 8 个 线程 并 被 绑 定 到 
第 0 一 7 个 核 上 ， 与 简单 的 taskset 工具 不 同 ， 线 程 在 启动 后 不 允许 在 处 理 器 组 间 迁 移 。 不 
过 ， 两 种 方式 都 有 同样 的 缺点 ， 即 每 个 节点 都 只 能 使 用 单 进程 多 线程 的 MPI 进程 方式 。 对 
于 像 每 个 插 槽 一 个 MPI 进程 的 执行 方式 ( 见 11.3 节 )， 还 必须 与 MPI 启动 机 制 进行 交互 才能 
完成 绑 定 过 程 。 


A.2.2 程序 控制 亲缘 性 


如 果 不 选 择 外 部 亲缘 性 控制 工具 ， 或 者 该 类 工具 在 系统 中 不 可 用 ， 就 需要 在 程序 中 显 
式 进 行 绑 定 。 每 个 操作 系统 都 提供 类 似 的 系统 调用 或 者 库 以 完成 类 似 功 能 。 在 Linux F, 
PLPA[T32] 是 一 个 抽象 sched_setaffinity() 果 数 及 相关 系统 调用 的 外 部 库 。 下 面 是 一 个 C 语 
言 编写 的 OpenMP 实例 ， 每 个 线程 都 被 绑 定 到 通过 线程 标识 索引 的 核 标 识 上 : 

1 #include <plpa.h> 

int coremap[] = {0,4,1,5,2,6,3,7}; 

4 #pragma omp parallel 

| plpa_cpu_set_t mask; 

7 PLPA_CPU_ZERO (&mask) ; 
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8 int id = coremap[omp_get_thread_num()]; 

9 PLPA_CPU_SET (id, &mask) ; 

10 PLPA_NAME (sched _setaffinity) ((pid_t)0, sizeof (mask), &mask) ; 
uo } 


mask 变量 通过 位 掩 码 实现 ， 通 过 设置 某 些 位 来 标识 某 个 线程 可 以 在 哪些 处 理 核 心 上 运 
行 (这 与 taskset 中 的 掩 码 使 用 方式 一 致 )。 通 过 coremap[] 数组 来 建立 一 个 特殊 映射 序列 ， 
在 本 例 中 ， 目 标 是 将 所 有 线程 均匀 地 分 布 到 前 述 Nehalem 系统 中 的 8 个 核 上 ， 因 此 已 达到 
最 优 带 宽 利 用 率 。 在 真实 应 用 中 ， 映 射 数 组 不 应 该 被 硬 编 码 。 

程序 运行 后 ， 线 程 不 允许 迁移 〈 可 以 被 重新 绑 定 )。 也 可 以 利用 PLPA 绑 定 MPI 进程 : 


plpa_cpu_set_t mask; 

PLPA_CPU_ZERO (&mask); 

MPI_Comm_rank (MPI COMM WORLD, &rank)j; 

int id = (rank $% 4); 

PLPA_CPU_SET (id, &mask) ; 

PLPA_NAME (sched_setaffinity) ((pid_t)0, sizeof(cpu_set_t), é&mask); 
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这 里 考虑 到 简洁 性 没有 使 用 映射 数组 。 利 用 PLPA 进行 MPI/OpenMP 程序 绑 定 实例 
如 下 : 


1 MPI_Comm_rank (MPI_COMM_WORLD, &rank) ; 

2 #pragma omp parallel 

| 

4 plpa_cpu_set_t mask; 

5 PLPA_CPU_ZERO (&mask) ; 

6 int cpu = (rank % MPI PROCESSES PER NODE)*omp_ num threads() 

7 + omp_get thread num(); 

8 PLPA_CPU_SET (cpu, &mask) ; 

9 PLPA_NAME (sched_setaffinity) ((pid_t)0, sizeof(cpu_set_t), é&mask); 
10 } 


上 面 我 们 用 原始 处 理 器 整数 标识 ， 没 有 指定 诸如 cache 组 和 捅 槽 之 类 的 组 件 (如 果 绑 定 
机 制 文 持 这 些 组 件 )。 在 本 书写 作 过 程 中 ， 已 经 有 大 量 的 提供 简单 易 用 的 亲缘 性 工具 的 研究 
成 果 ， 包 括 提供 比 PLPA 更 为 全 面 的 解决 方案 的 “hwloc” 工 具 包 [T33]。 

注意 PLPA 和 类 似 的 接口 只 支持 C 语言 ， 编 写 Fortran 程序 需要 编写 一 个 C 语言 的 调用 
接口 层 。 


A.3 非 页 面 首次 访问 分 配 策 略 


页 面 首次 访问 分 配 策略 适用 于 很 多 ccNUMA 环境 和 操作 系统 ， 除 了 静态 调度 也 没有 其 
他 更 好 的 蔡 换 策略 。 尽 管 如 此 ， 通 过 8.3.1 节 和 习题 8.1 的 分 析 ， 由 于 影响 程序 执行 性 能 的 
主要 因素 ， 即 负载 均衡 的 需要 ， 我 们 也 需要 提供 动态 或 者 指导 性 调度 。 另 一 个 类 似 的 问题 是 
当 系 统 文 持 OpenMP 任务 时 产生 的 [058]。 应 该 充分 将 内 存 页 面 均 匀 分 布 ( 轮 询 方式 ) 至 整 
个 局 部 区 域 ， 一 边 提高 内 存 访 问 并 行 性 。 这 也 可 以 通过 首次 访问 分 配 策略 来 实现 ， 不 过 需要 
正确 的 初始 化 〈 例 如 标准 循环 )。 如 果 初 始 化 过 程 位 于 用 户 代码 之 外 则 会 产生 一 些 问题 。 

在 Linux 系统 下 ，numactl 工具 提供 了 非常 方便 的 基于 全 局 的 页 面 分 配 策略 ， 而 且 不 需 
要 改变 应 用 程序 代码 。 该 工具 还 可 提供 其 他 功能 ， 包 括 SYSV 共享 内 存 的 放置 策略 以 及 类 似 
tastset 一 样 提供 进程 绑 定 的 方法 。 这 里 我 们 忽略 其 他 功能 而 只 关心 有 关 NUMA 的 功能 : 


1 mumactl --hardware 


可 以 利用 numactl 的 输出 检查 系统 局 部 性 域 中 的 可 用 内 存 ， 在 A.1 节 提 到 的 ccNUMA 
系统 节点 的 输出 如 下 : 
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S$ numactl --hardware 

available: 2 nodes (0-1) 

node 0 cpus: 0123 8 9 10 11 
node 0 size: 6133 MB 

node 0 free: 2162 MB 

node 1 cpus: 45 6 7 12 13 14 15 
node 1 size: 6144 MB 

node 1 free: 5935 MB 


在 numactl 中 ， 节 点 表示 一 个 局 部 性 域 。 在 LD1 中 有 足够 的 内 存 可 用 ， 但 是 由 于 有 程 
序 运 行 或 者 内 存 被 文件 系统 缓存 所 用 ( 见 8.3.2 节 ), 在 LD0 上 只 有 2G 内存。 该 工具 还 显示 
了 每 个 核 标 识 都 属于 哪 一 个 节点 。 

针对 页 面 分 配 策略 有 以 下 几 种 选项 : 


1 mumactl [(--interleave=nodes] [(--preferred=node] 
2 [--membind=nodes] [--localalloc] <command> [args] ... 


命令 行 中 的 选项 --interleave 设置 内 存 页 面 的 交替 分 配 策略 ， 与 首次 访问 分 配 策略 不 同 ， 
页 面 将 会 以 轮 询 方式 在 指定 的 LD 列表 中 循环 分 配 : 


1 $ export OMP_NUM_THREADS=16 # using all HW threads 
2 $ numactl --interleave=0,1 ./a.out # --interleave=all for all nodes 


如 果 在 制定 的 LD 上 没有 足够 的 可 用 内 存 ， 就 会 在 其 他 LD 上 进行 分 配 。 交 替 分 配 策略 
可 以 用 来 快速 检测 具有 NUMA 局 部 性 或 者 冲突 特性 的 程序 的 执行 结果 : 如 果 未 改变 的 程序 
仅 在 运行 时 设置 numactl--interleave 模式 下 性 能 更 高 ， 用 户 需 要 检查 数组 初始 化 代码 。 

除了 轮 询 分 配 策略 ， 如 果 节 点 空闲 内 存 足 够 的 话 ， 还 可 以 进行 节点 级 别 ( --prefered 
=node) 页 面 分 配 ， 或 者 通过 设置 --membind=nodes 在 一 组 节点 上 进行 分 配 。 在 后 者 的 情况 
下 ， 如 果 标 识 满 配 ， 程 序 会 月 演 。 选 项 --localalloc 类 似 ， 不 过 总 是 选择 映射 当前 节点 ， 即 
在 numactl 初始 局 动 节点 上 进行 分 配 。 

如 果 需 要 更 为 细 粒 度 的 页 面 分 配方 式 ， 可 以 利用 Linux 系统 中 的 libnuma FF [139]， 它 
允许 在 调用 内 存 分 配 后 (例如 通过 malloc) 以 及 初始 化 前 选择 NUMA 策略 。 
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习题 1.1 

运行 时 间 受 除法 和 储存 在 寄存 器 中 的 数据 主导 ， 所 以 我 们 可 以 假设 每 次 循环 迭代 的 周期 
数 等 于 除法 吞吐 量 (这 里 假设 等 于 延迟 )。 当 设计 SIMD 操作 时 ， 需 要 注意 ; WER p 个 除法 
能 够 并 行 执行 ,那么 基准 测试 需要 将 估计 的 除法 延迟 除 以 po 

目前 x86 以 构 处 理 希 双 精 度 的 除法 延 民 在 20 一 30 周期 之 间 。 

习题 1.2 

正如 1.2.3 节 中 解释 的 ， 在 迭代 i 中 ofs=1 阻塞 流水 线 直 到 盖 1 次 迭代 完成 。 阻 塞 时 间接 
近 于 流水 线 深度 。 如 果 ofs 增加 ， 阻 塞 时 间 将 越 来 越 小 直到 最 后 ， 如 果 ofs 比 流水 线 深 度 大 ， 
那么 阻塞 将 消失 。 注 意 ， 我 们 忽略 编译 器 使 用 SIMD 指令 向 量化 代码 所 带 来 的 递归 影响 。 

习题 1.3 

无 论 什 么 时 候 从 内 存 中 预 取 的 数据 流 远 远 小 于 一 个 内 存 页 ， 预 取 器 倾向 于 读 取 比 需 要 
多 更 多 的 数据 [062]。 如 果 太 多 预 取 请 求 排队 ， 那 么 这 种 影响 可 以 通过 硬件 取消 预 取 流 来 改 
善 一 一 但 是 不 能 消除 。 

注意 如 果 流 很 短 ， 则 TLB 失效 将 是 另 一 个 需要 考虑 的 重要 因素 。 详 细 介绍 请 参考 
3.4 Ns 

习题 1.4 

(a) 没有 预 取 ， 获 取 两 个 cache 行 所 需 时 间 是 延迟 的 两 倍 (100ns) 加 上 纯 数 据 传 输 ( 带 
w) 两 倍 (10ns)， 总 共 220ns。 既 然 一 个 cache 行 有 4 项 ， 则 在 这 些 数据 上 可 以 执行 8 个 
Flop〔 每 项 两 个 乘法 和 两 个 加 法 )。 因 此 ， 预 期 性 能 是 8 Flop/220 ns = 36 MFlop/s。 

(b) 根据 式 ( 1-6 )， 需 要 1+100/10=11 预 取 来 隐藏 延迟 。 注 意 这 个 结果 不 依赖 并 发 流 的 
数量 仅 当 我 们 假设 可 获得 的 带宽 独立 于 这 个 数 。 

(c) 如 果 cache 行 长 度 增加 ， 则 延迟 不 变 但 是 将 花费 更 多 时 间 传 输 数 据 ， 也 就 是 ， 整 体 
传输 时 间 增 加 。 当 cache 行 是 64 字 节 时 ， 我 们 需要 1+100/20 = 6 个 预 取 ， 并 且 当 128 字 节 
时 仅 需 要 1+100/40 = 4。 

(d) 如 果 没 有 延迟 ， 传 输 两 个 cache 行 花 费 20ns， 并 且 在 这 段 时 间 8 个 flop 可 以 被 执 
行 。 这 将 带 来 理论 性 能 4 x 108 Flop/s, 或 者 400 MFlop/s. 

习题 2.1 

由 于 依赖 于 数据 是 否 从 内 存 中 被 预 取 ， 条 件 分 支 带 来 的 影响 是 巨大 的 。 对 于 cache 外 的 
数据 ， 也 就 是 ,YX 很 大 时 ， 代 码 执行 和 标准 向 量 三 元 组 一 样 ， 而 和 C 内 容 无 关 。 然 而 当 V 
很 小 时 ， 如 果 分 支 不 能 预测 的 话 ， 性 能 下 降 很 大 ， 即 对 于 C 值 的 随机 分 布 来 说 。 如 果 C (i) 
总 是 小 于 或 者 大 于 0， 则 性 能 可 以 恢复 ， 这 是 因为 大 多 数 情 况 下 分 支 是 可 以 被 预测 的 。 

注意 编译 需 能 够 做 有 趣 的 事情 ， 例 如 对 于 循环 ， 尤 其 涉及 SIMD 操作 循环 。 如 果 执 行 实 
际 基 准 测 试 ， 则 尽量 取消 编译 器 的 SIMD 功能 以 便 获 取 一 个 更 清晰 的 情况 。 
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习题 2.2 

Æ “SIMD 单元 ”中 的 操作 必须 独立 ， 但 是 它们 可 能 依赖 于 距离 很 远 的 数据 ， 不 管 是 负 
还 是 正 。 尽 管 对 于 offset<0， 流 水 线 次 优 的 ， 但 是 4 Ae CERA) 没有 阻止 SIMD 
向 量化 。 注 意 ， 如 果 在 编译 时 偏 移 不 确定 的 话 ， 那 么 编译 器 总 是 禁止 在 这 样 的 循环 中 SIMD 
向 量化 。 你 能 想象 SIMD 回 量 化 这 个 代码 ， 即 使 offset 不 是 4 的 倍数 吗 ? 

习题 2.3 

果 数 中 或 者 块 中 的 一 个 C 风格 数组 被 分 配 在 栈 上 。 这 是 一 个 基本 上 没有 开销 的 操作 ， 
所 以 它 将 不 会 对 性 能 有 什么 影响 。 但 是 ， 依 据 栈 大 小 限制 ， 这 个 选项 不 总 是 可 能 。 

习题 2.4 

STL 的 std::vector<> 类 有 容量 和 大 小 概念 的 区 别 。 如 果 这 里 有 已 知 的 回 量 长 度 的 上 界 ， 
那么 赋值 可 能 不 需要 重新 分 配 空间 : 


const int max_length=1000; 


1 
2 
3 void f(double threshold, int length) { 

4 static std: :vector<double> v(max_length) ; 

5 if(rand() > threshold*RAND MAX) { 

6 v = obtain_data (length); // no re-alloc required 
7 std::sort(v.begin(), v.end()); 

8 process_data(v); 

9 } 

10 } 


习题 3.1 

如 果 s HE DP 字 中 的 cache 行 长 度 小 ， 连 续 的 cache 行 仍 然 从 内 存 中 被 读 取 。 假 设 预 取 
机 制 能 够 隐藏 所 有 延迟 ， 则 内 存 接口 饱和 但 是 我 们 仅 使 用 传输 数据 的 1/s。 因 此 ， 应 用 程序 
可 获取 带宽 (实际 加 载 和 存储 ) 将 降 到 1/s， 癌 量 三 元 组 性 能 也 如 此 。 对 于 大 于 cache 行 的 s， 
性 能 保持 不 变 ， 这 是 因为 每 个 cache 行 每 项 被 准确 使 用 ， 而 不 管 s 有 多 大 。 当 然 ， 预 取 将 在 
某 些 点 终止 ， 并 且 性 能 将 下 降 并 最 终 由 延迟 决定 (见习 题 1.4 )。 

如 果 使 用 非 临时 存储 写 AO， 那 么 这 些 考 虑 的 情形 会 改变 吗 ? 

习题 3.2 

正如 3.1.2 节 中 所 示 ， 如 果 片 上 第 二 个 核 空 闪 ， 那 么 单个 Intel Xeon 5160 核 拥 有 12 
GFlop/s 的 峰值 性 能 和 Ba = 0.111 W/F 理论 机 器 均衡 。STREAM TRIAD 基准 测试 产生 的 有 
效 均 衡 仅 是 这 里 的 36%。 对 于 疝 量 CPU， 峰 值 性 能 是 16 GFlop/s。 理 论 和 高 效 的 机 器 均衡 
相同 : Bm = 0.5 W/F。 这 里 考虑 的 所 有 4 个 内 核 都 是 只 读 的 〈 因 为 内 存 循环 指示 变量 是 i， 所 
以 (a) ABP Y(j) 可 以 保存 在 寄存 器 中 )， 所 以 写 分配 传 输 不 是 问题 。 虽 然 不 存在 只 读 的 
STREAM 基准 测试 ,但 是 2 : 1 加 载 和 存储 比 的 TRIAD 已 经 足够 接近 ， 特 别 是 TRIAD 之 间 
的 有 效 带 宽 没 有 太 多 差别 时 ， 比 如 ，Xeon 上 的 COPY。 

我 们 用 Px 和 Py 分 别 表示 Xeon 和 向 量 CPU 上 的 期 望 性 能 : 

(a)B.=1W/F 

Px = 12 GFlop/s - 0.36 - BX /B. = 400 MFlop/s 

Py = 16 GFlop/s : Bw /B. = 8 GFlop/s 

(b) B.=0.5 W/F。 期 望 性 能 两 倍 于 (a)。 

(c) 和 (a) 相等 。 

(d) 仅 算 上 代码 显 式 加 载 时 ， 代 码 均衡 似乎 是 B. = 1.25 W/F。 但 是 ， 有 效 值 依赖 于 数组 
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K( 的 内 容 : 4 KG) 中 的 项 连续 时 ， 所 给 的 值 才 是 正确 的 。 如 果 ， 比 如 ，K(i) =%%, RA 


BO 项 被 加 载 ， 所 以 在 cache 依赖 的 CPU 上 有 BU" = 0.75 W/F。 一 个 向 量 CPU 没有 cache 
优势 ， 所 以 它 必须 反复 加 载 同样 值 ， 所 以 代码 均衡 不 变 。 男 一 方面 ， 它 可 以 高 效 地 分 散 加 
aX, PUA BY = 1.25 W/F 独立 于 KO 内 容 (实际 上 ， 和 理想 有 偏差 ， 例 如， 聚集 操作 比 连续 
流 效 率 差 )。 因 此 ， 向 量 处 理 器 应 该 是 Py = 16 GFlop/s - BY,/BY= 6.4 GFlop/s。 

基于 cache CPU 的 最 差 情况 是 有 大 的 相关 区 域 完全 随机 的 K(i)， 所 以 每 次 从 中 加 载 都 会 
引起 cache 行 全 部 读 ， 而 这 时 在 无 效 前 仅 有 单独 一 项 被 使 用 。 如 果 cache 行 是 64 字 节 大 小 ， 
那么 Bee… = 4.75 W/F。 因 此 ， 三 种 情形 如 下 : 

QD K(i) = 常数 : 

BEX =0.75 W/F， 和 

Px = 12 GFlop/s - 0.36 - B%/ Br"™™* = 639 MFlop/s 

© K(i) =i: 

B.=1.25 W/F, fil 

Px = 12 GFlop/s : 0.36 : BX /B* = 384 MFlop/s 

© K(i) = 随机 值 : 

B.=4.75 W/F， 和 

Px = 12 GFlop/s - 0.36 - BX / B™** = 101 MFlop/s 

这 个 估计 值 仅 仅 是 一 个 上 界 ， 这 是 因为 预 取 并 没有 工作 。 

注意 一 些 Intel x86 处 理 需 每 次 失效 时 总 是 预 取 两 个 连续 cache 行 (你 能 想象 为 什么 
E? )， 这 导致 在 最 差 情形 下 代码 均衡 的 增加 。 

习题 3.3 

我 们 将 初始 运行 时 间 归 一 化 为 T= Ta +7. = 1， 其 中 Ta = 0.4 AT. = 0.6。 应 用 程序 的 这 
两 个 部 分 有 不 同 特点 。0.04 WEF 的 代码 均衡 意味 着 性 能 不 被 内 存 带 宽 限 制 ， 而 是 CPU 核 中 
的 另 一 个 因素 。 如 果 峰 值 性 能 达到 双 倍 ， 那 么 这 部 分 的 绝对 运行 时 间 很 可 能 减少 一 半 ， 这 是 
因为 0.06 WF 的 机 需 均 衔 仍 然 比 代码 均 衡 大 很 多 。 应 用 程序 另 一 部 分 运行 时 间 将 不 会 变化 ， 
因为 内 存 受 限 是 0.5 WF 的 代码 均衡 。 总 之 ， 整 体 运 行 时 间 将 是 T= Ta + T./2 =0.7。 

如 果 SIMD HEKE (也 就 是 峰值 性 能 ) 增长 ， 机 器 均衡 将 减少 很 多 。 在 机 器 均衡 为 
0.04 W/F 的 情况 下 ， 应 用 程序 先前 CPU 约束 的 部 分 将 变 成 内 存 约束 的 。 从 这 个 观点 ， 峰 值 
性 能 提高 并 不 能 改善 它 的 运行 时 间 。 因 此 整体 时 间 是 Tmin = Tm + Te /3 = 0.6。 

考虑 Amdahl 法 则 并 且 上 面 的 考虑 的 确 是 它 背 后 概念 的 利用 。 但 是 ， 这 里 有 点 复杂 ， 这 
是 因为 在 某 些 关键 机 器 均衡 中 ， 应 用 程序 的 CPU 约束 部 分 变 成 内 存 约束 以 至 于 到 达 绝 对 性 
能 极限 ， 而 与 Amdahl 法 则 相反 的 它 是 一 个 通 近 值 。 

代码 清单 B-1 用 三 路 循环 块 实现 的 三 维 Jacobi 算法 实现 


double precision :: oos 
double precision, dimension (0:imax+1,0:jmax+1,0:kmax+1,0:1) :: phi 
integer :: t0,tl 


tO = 0 ; tl = 1 ; oos = 1.d0/6.d0 


! loop over sweeps 
do s=1,ITER 
' loop nest over blocks 
do ks=1,kmax,bz 
do js=1, jmax, by 


OO 0 >o NN QA Ww bh ùv N ~= 
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11 do is=l1,imax, bx 


12 ! sweep one block 

13 do k=ks,min (kmax, ks+bz-1) 

14 do j=js,min(Jjmax, jst+by-1) 

15 do i=is,min (imax, is+bx-1) 

16 phi(i,j,k,tl) = oos * ( & 

17 phi (i-1,j,k,t0)+phi(it+l,j,k,t0O)+ & 
18 phi (i, j-1,k,t0) +phi (i, j+1,k,t0)+ & 
19 phi {iz 3,k-1,€0) +phi (i, j,.kK+1,€0) ) 
20 enddo 

21 enddo 

22 enddo 

23 enddo 

24 enddo 

25 enddo 

26 i=tO ; tO=tl; tl=i ! swap arrays 

27 enddo 

习题 3.4 


相对 于 二 维 Jacobi， 我 们 预期 当 问 题 规模 增 大 时 ， 性 能 会 大 幅度 下 降 : 如 果 两 个 连续 上 
平面 能 够 放 在 cache 中 ， 那 么 6 次 加 载 只 有 1 次 引起 cache 失效 。 如 果 cache 足够 大 而 能 放 
下 kk 平面 中 连续 两 个 j 行 ， 那么 将 有 3 个 加 载 需 要 访问 内 存 (涉及 模板 更 新 的 每 个 上 平面 有 
一 次 )。 最 后 ， 当 问题 规模 很 大 后 ， 只 有 单个 加 载 能 够 放 在 cache 中 。 当 问题 规模 非常 大 ， 
或 者 计算 区 域 有 一 个 椭圆 形状 时 ， 将 会 发 生 这 种 情况 ， 当 然 实际 情形 并 不 常见 。 
正如 和 矩阵 转 置 例子 所 示 ， 循 环 分 块 可 以 消除 性 能 下 降 。 整 体 的 一 次 扫描 可 以 分 成 

bx x by x bz 大 小 的 子 块 多 次 扫描 。 可 以 选择 足够 小 的 字 块 使 得 连续 两 个 上层 能 够 放 在 外 层 
cache 中 。 一 个 可 能 的 实现 如 代码 清单 B-1 所 示 。 注 意 ， 我 们 并 不 考虑 数据 对 齐 或 者 非 临 时 
存储 优化 。 

上 面 所 示 的 循环 分 块 是 所 谓 的 空间 分 块 (spatial blocking)。 如 果 问 题 规 模 对 于 外 层 
cache 很 大 ， 那 么 所 有 性 能 下 降 都 可 以 消除 ， 也 就 是 ， 它 能 保持 0.5 WF (每 6 个 Flop 3 
个 字 ， 包 括 写 分 配 ) 的 代码 均衡 。 问 题 仍 然 存 在 : 块 大 小 的 最 优选 择 是 多 少 ? ME, Æ 
i 和 j 方 同上 块 应 该 足够 小 使 得 最 少 两 个 连续 大 平面 能 够 放 在 外 层 cache 中 以 便 被 核 访问 。 
应 该 考虑 “安全 因素 ”， 这 是 因为 全 部 cache 永远 不 会 使 用 完 。 注 意 ， 硬 件 预 取 器 (尤其 在 
x86 AFEA E) 和 TLB 失效 所 市 来 的 开销 需要 内 层 循环 中 处 理 的 内 存 流 应 该 不 比 一 个 页 面 
小 太 多 。 

为 了 减少 代码 均衡 ， 不 得 不 在 分 块 方案 中 包含 迭代 循环 ， 当 每 项 都 被 加 载 cache PH, 
更 新 多 个 模板 。 这 是 所 谓 的 时 间 分 块 (temporal blocking)。 虽 然 概 念 很 直接 ， 但 是 它 的 优 
化 实现 、 性 能 特性 ， 以 及 多 核 结构 交互 仍 是 活跃 的 研究 领域 [061，073，074，075，052， 
O53]. 

习题 3.5 

模板 代码 能 从 内 层 循环 展开 获 益 ， 这 是 因为 可 以 减少 从 cache 到 寄存 器 中 的 加 载 。 为 了 
便于 展示 ， 我们 考虑 一 个 简单 “两 点 模板 ”: 

i do i=1,n-1 


2 b(i) = a(i) + s»a(i+1) 
3 enddo 


在 每 次 迭代 中 ， 当 更 新 b (i) 时 ， 需 要 两 次 加 载 和 一 次 存储 。 但 是 ，a (i+l ) 能 够 保存 
在 寄存 器 中 并 且 在 下 次 迭代 时 能 够 立即 被 重用 (在 这 里 我 们 忽略 可 能 的 剩余 循环 ): 
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1 do i=1,n-1,2 
2 b(i) = a(i) + S*a(itl) 
3 b(itl) = a(itl) + s*a(it2) 
4 enddo 
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这 将 从 a0 数组 中 的 加 载 省 去 一 半 。 但 既然 这 个 版 本 中 没有 使 用 循环 展开 ， 额 外 加 载 总 


是 来 自 于 Ll cache， 所 以 这 是 一 个 cache 内 优化 。 
对 于 较 长 的 、 内 存 约束 循环 来 说 ， 循 环 展 开 没 有 
任何 优势 。 在 简单 例子 中 ， 编 译 器 将 会 自动 地 对 
内 层 循环 的 变 体 采取 展开 。 

留 给 读者 弄 清 Jacobi 模板 中 如 何 应 用 内 层 循 
环 展 开 。 

习题 3.6 

EUWE, ORR REE “RIB”, RE, 
如 果 内 层 循环 边界 不 依赖 于 外 层 循环 指示 变量 ， 那 
么 循环 展开 和 阻塞 是 仅 有 的 可 能 性 。 这 个 条 件 在 这 
里 不 成 立 ， 但 是 可 以 将 矩形 块 组 从 三 角 和 矩阵 中 分 离 
而 对 剩 下 类 循环 剥离 单独 处 理 。 图 B-1 显示 它 是 怎 
么 工作 的 。 对 于 四 路 展开 和 阻塞 来 说 ,4xr(r 宇 1) 
大 小 的 块 通过 展开 骸 套 循环 被 遍历 (阴影 部 分 )。 
剩 下 的 部 分 采用 完全 循环 展开 : 


rstart = MOD(N,4)+1 


do r=1,rstart-c 
y(r) = Y(T) + alri) # x(c) 
enddo 
enddo 


© © ~- 了 mm N = 


do b = rstart,N,4 ! row of block start 
! unrolled loop nest 
ao c = 1,b 


= 5 


12 y(b) = y(b) + a(c,b) * x(c) 
13 y(b+1) = y(b+1) + a(c,b+1) * x(c) 
14 y (b+2) y(b+2) + a(c,b+2) w x(c) 





图 B-1 三 角 和 矩阵 和 向 量 乘法 的 四 路 循环 展 
开 和 阻塞 。 舌头 显示 了 如 何 遍历 矩阵 元 素 。 
阴影 块 是 矩形 的 ， 因 此 是 展开 和 阻塞 的 候 
选 。 白 色 和 矩阵 元 素 必须 单独 处 理 


do c=1,rstart-1 ! first peeled-off triangle 


15 y (b+3) y(b+3) + a(c,bt+3) * x(c) 

16 enddo 

17 

18 ! remaining 6 iterations (fully unrolled) 
19 y(b+1) = y(b+1) + a(b+1,b+1) * x(b+1) 
20 y(b+2) = y(b+2) + a(b+1,b+2) * x(b+1) 
21 y (b+3) = y(b+3) + a(b+1,b+3) * x(b+1) 
22 y (b+2) = y(b+2) + a(b+2,b+2) * x (b+2) 
23 y(b+3) = y(b+3) + a(b+2,b+3) = x (b+2) 
24 y (b+3) = Y(b+3) + a(b+3,b+3) * x (b+3) 
25 enddo 

习题 3.7 


这 里 代码 有 如 下 可 能 性 能 问题 。 
OC 内 存 循环 由 计算 开销 很 大 的 三 角 函 数 主导 。 
O 这 里 有 开销 相当 大 的 整数 取 模 运算 (要 比 其 他 整数 的 算术 或 者 逻辑 预算 慢 许 多 )。 


O 跨 步 访问 矩阵 mat 和 s， 是 因为 内 层 循环 随 着 j.SIMD 向 量化 而 无 法 采用 。 
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将 开销 大 的 运算 从 内 存 循 环 提取 出 来 是 首要 而 简单 的 步骤 (尽管 这 实际 上 由 编译 带 完 
成 )。 同 时 ， 我们 应 该 使 用 位 掩 码 来 替代 取 模 操作 并 对 复杂 三 角 畏 数 采 用 更 简单 的 计算 替代 : 


1 do i=1,N 
2 val = DBLE(IAND(v(i),255) ) 
3 val = -0.5d0«COS (2.d0*val) 
4 do j=1,N 

5 mat (i,j) = s(i,j) * val 
6 enddo 

7 enddo 


尽管 这 种 优化 提升 性 能 不 多 ,但 是 在 内 层 循环 中 的 跨 步 访问 是 有 风险 的 ， 尤 其 当 NN 很 
大 时 (参考 3.4 )。 我 们 不 能 简单 交换 循环 层次 ， 因 为 这 样 会 导致 将 开销 大 的 操作 又 移动 到 
内 存 循 环 。 注 意 余 弦 仅 在 256 个 不 同 值 上 计算 ， 所 以 可 以 构造 一 张 表 格 : 


| double precision, dimension(0:255), save :: vtab 
2 logical, save :: flag = .TRUE. 

3 if(flag) then ! do this only once 

4 flag = .FALSE. 

5 do i=0,255 

6 vtab (i) = -0.5d0xCOS (2.d0*«DBLE (i) ) 

7 enddo 

8 endif 

9 do j=1,N 

10 do i=1,N 

T mat (i,j) = s(i,j) * vtab(IAND(v(i),255)) 
12 enddo 

3 enddo 


在 内 存 约束 情形 中 ， 也 就 是 ， 当 N 很 大 时 ， 由 于 间接 操作 开销 很 小 ， 并 且 vtab ( ) 将 
永久 缓存 ， 所 以 这 是 一 个 好 的 解决 方案 。 更 好 的 是 ， 表 格 仅 被 计算 一 次 。 但 是 ， 如 果 问 题 规 
模 刚 好 能 够 放 进 cache 中 ,那么 SIMD 癌 量 化 就 变 得 很 重要 。 一 种 向 量化 内 存 循环 的 方式 是 


不 仅 构 建 256 个 三 角 函 数值 而 且 构建 在 (i,j) 之 后 的 整个 函数 值 : 
| double precision, dimension(0:255), save :: vtab 
2 double precision, dimension(N) :: ftab 
3 logical, save :: flag = .TRUE. 

4 if(flag) then ! do this only once 

5 flag = .FALSE. 

6 do i=0,255 

7 vtab (i) = -0.5d0*COS (2.d0*DBLE (i) ) 

8 enddo 

9 endif 

10 do i=1,N ! do this on every call 
11 ftab (i) = vtab(IAND(v(i),255)) 

2 enddo 

13 do j=1,N 

14 do i=1,N 

15 mat (i,j) = s(i,j) * ftab (i) 

16 enddo 

17 enddo 

因为 在 函数 调用 之 间 vO 可 能 变化 ， 所 以 ftabQ) 每 次 都 必须 重新 计算 ， 但 是 内 层 循环 现 

在 SIMD 向 量化 了 。 
习题 3.8 


TLB “cache 行 ”是 内 存 页 ， 所 以 失效 开销 必须 和 将 页 加 载 到 cache 中 所 花费 的 时 间 
对 比 。 现 在 ， 内 存 带 宽 是 每 个 核 几 个 GB/s， 所 以 导致 传输 4kB 的 页 大 概 需 要 lus。 不 同体 
系 结构 中 TLB 失效 开销 是 不 同 的 ， 但 是 它 通常 要 小 于 100 个 CPU 周期 。 在 时 钟 频 率 大 概 
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2GHz 时 ， 纯 流 化 代码 上 的 每 页 TLB 失效 对 性 能 没有 太 大 影响 。 如 果 在 下 次 之 前 传输 远 小 于 
一 个 页 ， 这 当然 将 改变 。 

一 些 系统 有 更 大 内 存 页 ， 或 者 可 以 配置 使 用 。 最 好 是 一 个 应 用 程序 的 整个 工作 集 能 够 
映射 到 TLB 中 使 得 失效 数目 为 零 。 即 使 不 是 这 样 的 情形 ， 大 页 面 也 仍 能 够 提高 TLB 的 命中 
率 ， 这 是 因为 在 任何 给 定时 间 一 个 新 页 面 被 命中 的 概率 很 小 。 但 是 ， 采 用 大 页 面 会 减少 可 获 
取 的 TLB 项 的 数量 。 

习题 4.1 

静态 路 由 为 每 对 通信 伙伴 分 配 固定 的 网 络 路 线 。 由 于 2 : 3 的 超额 认购 ， 一 些 连接 将 会 
获取 较 少 的 到 主干 上 的 带宽 ， 因 为 在 主干 连接 上 均匀 分 发 叶子 是 不 可 能 的 (在 叶子 转换 处 的 
叶子 数 不 是 它 与 主干 连接 数 的 倍数 )。 因 此 ， 网 络 变 得 更 加 不 平衡 ， 超 出 了 由 静态 路 由 及 超 
额 认购 单独 珊 来 的 竞争 效应 。 

习题 5.1 

在 计算 后 面 隐 藏 通信 是 一 件 听 起 来 简单 但 通常 在 实际 中 不 易 实 现 的 一 件 事 情 ， 详 见 
10.4.3 市 及 11.1.3 节 。 无 论 如 何 ， 假 定 是 可 能 的 ， 位 于 强 扩 展 加 速 比 函数 ( 见 式 (5-30 ) ) 分 
母 上 的 并 行 执行 时 间 变 为 


max [(1-s)/N, (xN¥%+A) LA] (B-1 ) 
这 描绘 了 从 完美 到 部 分 隐藏 通信 的 一 个 分 界 点 ， 当 
u(1—s) =N! + AN, (B-2 ) 


由 于 方程 的 右 端 函数 在 0 科 8 芝 1 时 关于 N. 是 严格 单调 的 ， 因 此 在 速度 慢 的 计算 机 上 
(u>1) 分 界 点 总 是 会 转换 为 更 大 的 WY。 尽 管 V. 精确 地 (至少 因 子 / 是 合适 的 ) REX N, 
(u) / Ne(4 = 1) 所 给 出 ,但 是 求解 N. 并 不 容易 。 幸 运 的 是 ， 研 究 重 要 限制 1= 0 以 及 kx=0 
的 情况 已 经 足够 了 。 为 了 消除 延迟 ， 
£ ue 

K 








N.(A=0) = (B-3 ) 
以 及 
Ne >1) — ,,1/(1-p) 
bp ai 
在 延迟 主导 的 限制 x = 0 时 ， 我 们 可 以 立即 得 到 
Ne(A>1) 四 
Ne(m=l)lx-0 © 





至 此 ， 我 们 已 经 推导 出 了 运行 慢 的 计算 机 的 一 个 额外 收益 : 如 果 通 信和 能 在 计算 后 面 被 隐 
藏 ， 它 将 明显 地 变 成 一 个 确定 的 W， 这 会 比 标准 计算 机 至 少 大 4 HB. 
对 于 弱 上 扩展， 你 能 做 相同 的 分 析 吗 ? 





习题 5.2 
对 于 强 扩 展 及 延 色 主导 的 通信 ， 执 行 的 经 过 时 间 (“求解 时 间 ”) 为 
Ts+ 43 (B-6 ) 


其 中 s 为 不 可 并 行 部 分 , A 为 延迟 。 故 和 N 个 处 理 器 的 花 销 为 NT,， 产 生 的 花 销 - 经 过 时 
间 之 积 为 


V=NT2=N(s+* +2) (B-7 ) 
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x 
OV l 
aN MU HAN+N-1)s 1 NA +s) ]=0 (B-8 ) 
时 取得 极 值 。 这 个 方程 关于 N 唯一 的 正 数 解 为 
hy 
N= 7, ° (B-9 ) 


有 趣 的 是 ， 如 果 我 们 假设 为 市 有 泽 环 交换 的 二 维 区 域 分 解 ， 那 么 


Ty= s+ A+ aN (B-10 ) 
结果 与 式 ( B-9 ) 相同 ， 也 就 是 与 无关。 然而 ， 这 是 一 个 特例 ; APNE 
其 他 需 次 会 导致 本 质 上 的 不 同 结果 (以 及 一 个 更 复杂 的 导数 )。 
最 后 ， 在 入 = No 时 获得 的 加 速 比 为 
A+s ii 


-S 


(B-11) 








Sug = (20542) + 


用 最 大 加 速 比 Smax= 1/ (+s) 与 其 比较 ， 得 到 


S max K 


Sa =a) tH) 

因此 当 k=0 时,“ 最 佳 点 ”为 最 大 加 速 比 的 一 半 ; 对 于 有 限 大 小 的 x 会 更 低 。 

当然 ， 不 管 并 行 应 用 程序 的 通信 需求 是 什么 ， 如 果 工 作 负 载 对 于 单一 串 行 应 用 程序 的 运 
行 是 “可 容忍 的 "， 并 且 必 须 执行 很 多 这 样 的 运行 ， 那么 使 用 一 个 并 行 计 算 机 的 最 有 效 方 式 
是 吞吐 量 模 式 。 在 吞吐 量 模式 中 ， 同 一 串 行 代码 的 很 多 实例 同时 运行 在 一 个 资源 管理 系统 的 
控制 下 〈 在 所 有 的 产品 机 上 都 是 这 样 的 )。 这 样 使 得 所 有 的 资源 得 到 最 好 的 利用 。 显 然 ， 这 
种 方式 的 工作 负载 对 于 带 有 昂贵 互连网 络 的 大 规模 并 行 计算 机 是 不 适合 的 。 

习题 5.3 

对 于 强 扩展 ， 同 步 和 通信 开销 一 样 会 引起 最 后 的 减速 。 对 于 弱 扩 展 ， 线 性 的 可 扩展 性 遭 
到 破坏 ; 线性 同步 开销 甚至 会 造成 饱和 。 

习题 5.4 

忽略 通信 方面 (如 将 数据 移 人 和 移出 加 速 器 的 开销 )， 我 们 可 以 通过 假设 应 用 程序 的 加 
速 部 分 执行 得 比 主 机 部 分 快 a 售 而 其 余部 分 保持 不 变 ， 来 对 这 个 情形 建 模 。 使 用 Amdahl 定 
律 ，s 为 主机 部 分 ,，p = 1-s 为 加 速 的 部 分 。 因 此 ， 渐 进 的 性 能 由 主机 部 分 主导 ; 例如 ， 当 
a = 100 且 s= 10” 时 ， 加 速 比 仅 为 50， 这 意味 着 我 们 浪费 了 加 速 器 一 半 的 计算 能 力 。 为 了 
在 0<r<1 时 得 到 ra 倍 的 加 速 比 ， 我 们 需要 求解 


(B-12 ) 





= ra (B-13 ) 





于 出 


(B-14 ) 
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“4r=0.9, a= 100 时 ,得 到 s 守 1.1x103。 这 个 结论 表明 ， 高 效 使 用 加 速 设备 需要 原 
始 执行 时 间 的 主要 部 分 (超过 1-lla) 被 移 至 专门 的 硬件 上 。Amdahl 在 他 最 原始 的 论文 中 ， 
沿 着 在 ILLIAC IV 超级 计算 机 [R40] 上 对 比 “ 加 速 执行 ”和 “管家 及 数据 管理 ”方面 的 努力 
方向 顺便 得 到 了 他 的 著名 定律 ， 它 实现 了 一 个 大 规模 数据 并 行 的 SIMD 编程 模型 : 

在 这 一 点 上 可 以 得 出 的 一 个 十 分 明显 的 结论 是 在 获得 高 并 行 处 理 速率 上 去 努力 是 浪费 时 
间 ， 除 非 它 伴随 着 近乎 相同 规模 的 串 行 处 理 速率 [M45]。 

这 一 陈述 与 上 面 描述 的 情形 完美 符合 。 实 质 上 ， 它 在 5.3.5 节 中 已 经 用 数学 方法 推导 出 
来 ， 尽管 上 下 文 稍 有 不 同 。 

有 人 可 能 认为 扩大 (加速 的 ) 问题 规模 会 缓解 这 一 问题 ， 但 这 一 观点 由 于 加 速 器 内 存 大 
小 的 限制 而 遭 到 质疑 。 为 了 保持 串 行 (或 非 加 速 的 ) 部 分 和 通信 开销 可 控 ， 计 算 单 元 ( 核 、 
fit. To. MERE) 的 性 能 越 大 ， 相 应 的 内 存 就 会 越 大 。 

习题 6.1 

由 于 noise 变量 在 声明 时 初始 化 ， 所 以 在 子 过 程 fO PE AA Bask SAVE 属性 。 因 此 初 
始 值 仅 在 首次 调用 时 被 设置 ， 这 正 是 串 行 代码 所 想 要 的 。 但 是 ， 在 并 行 区 域 中 调用 fO 使 得 
noise 成 为 共享 变量 ， 并 且 存 在 竞争 条 件 。 要 想 修 改 这 问题 ， 要 么 将 noise 作为 f0 的 参数 
(类 似 于 线程 安全 随机 数 生 成 器 的 种 子 )， 要 么 它 的 更 新 应 该 由 同步 结构 保护 。 

习题 6.2 

关键 部 分 是 线程 安全 的 随机 数 生 成 器 。 根 据 OpenMP 标准 [P11]， 在 Fortran 90 中 的 
RANDOM NUMBER() 原 语 子 过 程 应 该 是 线程 安全 的 ， 所 以 在 这 里 可 以 使 用 。 但 是 ， 会 有 
性 能 影响 (为 什么 ? ) 并 且 通 常 最 好 避免 使 用 内 建生 成 器 〈 详 尽 讨 论 请 参考 [N51])， 所 以 我 
们 假设 这 里 存在 和 POSIX 中 rand rO 函数 相同 的 ran gen0 eA: 使 用 整数 随机 种 子 ， 这 个 
种 子 每 次 调用 都 被 更 新 并 且 被 存放 在 每 个 线程 各 自 的 调用 郴 数 中 。 上 因数 返 回 值 在 0 一 2 ”之 
间 ， 很 容易 被 转换 成 所 需 范围 的 浮 点 数 : 


1 integer (kind=8) :: sum 

2 integer, parameter :: ITER = 1000000000 

3 integer :: seed, i 

4 double precision, parameter :: rep = 1.d0/2«**31 
5 double precision :: x,y,pi 

6 !§$OMP PARALLEL PRIVATE(x,y,seed) REDUCTION (+: sum) 
7 seed = omp_get_thread_num() ! everyone gets their own seed 
s !$OMP DO 

9 do i=1, ITER 

10 x = ran_gen (seed) «rcp 

11 y = ran_gen(seed)*rcp 

12 if (x*x + yxy .le. 1.d0) sum=sum+l 

13 enddo 


14 !$OMP END DO 
is !$OMP END PARALLEL 
16 pi = (4.d0 * sum) / ITER 


在 第 7 行 中 ， 线 程 私 有 的 种 子 设 置 为 不 同 值 。 在 第 一 象限 中 的 1/4 圆 “ 命 中 次 数 ” 是 通 
过 sum 中 的 归 约 操作 计算 的 〈 在 所 有 线程 上 求 和 )， 并 且 使 用 第 16 行 计 算 最 终结 果 no 

为 每 个 线程 使 用 不 同 随机 种 子 很 重要 ， 这 是 因为 每 个 线程 都 产生 伪 随 机 数 ， 那 么 随机 误 
差 和 一 个 线程 运行 的 结果 一 样 。 

习题 6.3 

func) 的 计算 并 不 是 一 定 需 要 临界 区 域 保护 (和 sum 计算 刚好 相反 )。 它 可 以 在 外 面 计 


J Ai fe & 215 


算 ， 这 样 两 个 临界 区 域 就 不 互相 干涉 了 了: 
1 !SOMP PARALLEL DO PRIVATE (x) 
2 do i=1,N 
x = SIN(2*PI*DBLE (i) /N) 
x = func (x) 
!SOMP CRITICAL 
sum = sum + x 
!SOMP END CRITICAL 
enddo 
9 !SOMP END PARALLEL DO 


10 nee 
T double precision FUNCTION func (v) 


DC ~ o a” > Lv 


12 double precision :: v 
13 !$OMP CRITICAL 
14 func = v + random_func() 


is !$OMP END CRITICAL 
16 END SUBROUTINE func 


习题 6.4 

组 中 的 所 有 线程 都 应 该 到 达 同 步 点 。 但 是 在 工作 共享 组 中 是 无 法 保证 的 。 

习题 6.5 

感谢 来 自 Red Hat 的 Jakub Jelinek 提供 的 这 个 答案 。 如 果 我 们 意识 到 opt(n) = up**n, AL 
么 可 以 立即 并 行 循环 ， 但 是 指数 计算 开销 很 大 ， 所 以 我 们 将 不 采取 这 种 方法 〈 尽 管 我 们 采取 
并 行 代 码 的 单线 程 性 能 作为 基线 ， 扩 展 性 会 很 好 [S7])。 如 果 我 们 确保 这 个 线程 之 前 计算 的 
迭代 是 在 n-1 (第 12 行 )， 那 么 我 们 将 采取 opt(n) 的 初始 (快速) 版 本 。 男 一 方面 ， 如 果 我 
们 在 一 个 新 的 块 组 起 始 ， 那 么 指示 变量 将 被 跳 过 并 且 opt(n) 只 能 以 指数 方式 计算 (第 14 行 ): 


1 double precision, parameter :: up = 1.00001d0 
double precision :: Sn, origSn 

3 double precision, dimension(0O:len) :: opt 

4 integer :: n, lastn 

5 

6 origSn = 1.d0 

7 lastn = -2 

8 

9 !SOMP PARALLEL DO FIRSTPRIVATE(lastn) LASTPRIVATE (Sn) 

10 do n = 0,len 

1 if(lastn .eq. n-1) then ! still in same chunk? 

12 Sn = Sn * up ! yes: fast version 

13 else 

14 Sn = origSn * up**n ! no: slow version 

15 endif 

16 opt (n) = Sn 

17 lastn = n ! storing index 

18 enddo 

19 !SOMP END PARALLEL DO 

20 Sn = Sn * up 


LASTPRIVATE(Sn) 语句 确保 Sn 在 循环 结束 后 和 串 行 情形 有 相同 值 。 当 并 行 区 域 开 始 
Hf, FIRSTPRIVATE(lastn) 为 lastn 赋 于 初 值 给 私有 副本 。 这 纯粹 为 了 方便 ， 因 为 我 们 完全 
可 以 通过 拆 开 组 合 PARALLEL DO 指令 来 手动 复制 。 

虽然 这 个 解决 方案 使 用 所 有 OpenMP 循环 调度 选项 ， 但 是 它 对 于 块 组 大 小 很 小 的 静态 
或 者 动态 调度 尤其 慢 。 在 “STATIC,1” 的 特殊 例子 中 ， 和 开始 使 用 的 指数 方法 一 样 慢 。 

习题 6.6 

这 种 优化 又 被 称 为 扭曲 循环 (Loop skewing)。 从 一 个 特殊 位 置 开 始 ， 所 有 能 被 同时 更 
新 的 位 置 都 是 所 谓 的 超 平面 的 一 部 分 并 且 满 足 条 件 : i +j+k=const.=37, XE n Z1. 34 
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所 有 内 层 循环 迭代 独立 时 ， 流 水 化 执行 成 为 可 能 ， 使 得 向 量 流水 线 得 到 了 高 效 使 用 〈 请 参考 
6.1 节 )。 通 过 超 平面 方法 ， 基 于 cache 的 处 理 器 将 遭受 不 稳定 的 访问 模式 。 一 个 确定 的 模板 
更 新 所 取得 的 cache 行 在 cache 中 待 的 时 间 不 够 充分 利用 空间 局 部 性 。 带 宽 利 用 (正如 应 用 
程序 所 示 ) 因此 很 差 。 这 是 为 什么 艇 套 波 前 并 行 化 Gauss-Seidel 循环 的 标准 形式 更 适合 于 基 
于 cache 的 微 处 理 器 ， 这 里 忽略 了 不 充分 流水 线 所 市 来 的 性 能 损失 。 

习题 7.1 

在 C/C++ 中 ， 归 约 语句 并 不 能 应 用 于 数组 。 因 此 归 约 必须 手动 完成 。firstprivate 语句 有 
助 于 初始 化 s[] 的 私有 副本 ; 在 一 个 “ 真 ” 的 OpenMP 归 约 中 ,这 同样 自动 完成 : 


int s[8] = {0}; 
int *ps = s; 


l 
2 
3 
4 #pragma omp parallel firstprivate (s) 
5 { 

6 #pragma omp for 

7 for(int i=0; i<N; ++i) 

8 s[a[i]]++; 

9 #ifdef _OPENMP 

0 #pragma omp critical 

1 { 


12 for(int i=0; i<8; ++i) { // reduction loop 
a ps{i] += s[i]; 

14 } 

15 } // end critical 

16 #endif 


7 } // end parallel 
使 用 条 件 编译 ， 如 果 不 使 用 OpenMP 编译 ， 我 们 将 跳 过 显 式 归 约 。 
如 果 归 约 操作 符 不 被 OpenMP 直接 支持 ， 那 么 在 Fortran 中 需要 采取 同样 相似 的 手段 。 
同样 ， 重 载 C++ 操作 符 在 归 约 语句 是 不 被 允许 的 ， 甚 至 对 于 标量 类 型 也 是 如 此 。 
习题 7.2 
图 B-2 显示 了 当 问 题 规 模 大 约 为 600? 时 的 情形 : 单个 4MB AY L2 cache 太 小 而 不 能 容纳 
301] 工作 集 ， 但 是 8MB 足够 。 从 一 (或 者 两 ) 个 线程 到 四 个 线程 的 加 速 比 是 5.4。 
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图 B-2 ZHE Jacobi 解法 器 的 超 线性 加 速 比 (和 图 6-3 相同 的 数据 )。 当 问题 规模 为 600 时 ， 工 
作 集 太 大 而 不 能 容纳 单个 槽 的 L2 cache 中 ， 所 以 性 能 接近 于 内 存 约束 (实心 符号 ) 情 
形 。 使 用 额外 两 个 线程 (空心 方块 )， 可 以 获得 8MB cache， 这 将 大 到 足以 容纳 所 有 数 


据 。 因 此 获得 5.4 x 的 加 速 比 


当 工 作 集 能 够 放 和 人 cache 中 时 ， 网 格 更 新 如 此 快 以 至 于 ， 尤 其 是 当 线程 数据 很 大 时 ， 典 
型 OpenMP 开销 尤其 是 隐 式 栅栏 (请 参考 7.2.2 节 ) 可 能 主导 程序 运行 。 要 想 找到 这 种 标准 ， 
我 们 必须 和 使 用 传统 同步 开销 的 扫描 时 间 比 较 。 观 察 cache 内 双 线 程 最 大 性 能 (实心 方块 )， 
我 们 估计 单 遍 扫 描 花 费 170hs。 作 为 一 个 粗略 的 指导 ， 如 果 栅 栏 是 高 效 实现 的 ， 那 么 我 们 假 
设 在 共享 内 存 机 器 同步 所 有 线程 需要 大 概 每 个 槽 1ns[M41]。 因 此 ， 在 标准 双 或 者 四 权 节 点 
上 ， 应 该 能 够 观察 到 这 种 问题 的 超 线 性 加 速 。 
习题 7.3 
如 果 节 点 不 使 用 OpenMP 编译 ， 那 么 它 仍然 产生 正确 结果 ,但 是 如 果 RR 没 有 初始 化 ， 
结果 则 出 错 。 如 果 我 们 使 用 CO 作为 归 约 变量 ， 那 么 不 但 避免 这 种 情况 ， 而 且 在 归 约 语句 
中 仅 允 许 命 名 变量 。 
习题 7.4 
并 行 会 带 来 开销 ， 所 以 程序 员 使 用 的 线程 越 少 越 好 。 最 优 数 量 是 通过 主 存 带宽 的 扩展 性 
和 线程 数量 相 比 给 出 的 。 如 果 六 个 线程 中 两 个 已 经 充分 使 用 一 个 插 槽 的 内 存 总 线 ， 那 么 运行 
多 余 四 个 线程 没有 什么 意义 。 所 有 关于 cache 组 和 系统 架构 的 细节 没有 太 多 相关 。 
注意 共享 cache 并 不 一 定 能 够 提供 最 优 市 宽 的 扩展 ， 所 以 这 个 原因 也 适用 于 cache Wit 
算 [M41]。 
习题 8.1 
通常 来 说 ,性 能 (P) 是 工作 量 CW) 除 以 时 间 (1)。 我 们 选择 W=2， 意 味 着 两 个 内 存 页 
被 分 配 到 两 个 运行 线程 。 如 果 没 有 非 局 部 访问 ， 每 个 块 使 用 扩 !1 的 时 间 局 部 地 执行 ， 以 便 
已 = 2p。 一 般 ， 四 个 实例 必须 区 分 开 来 : 
1) 三 1 时 ， 两 个 线程 局 部 地 访问 页 面 。 
2) 两 个 线程 不 得 不 远程 访问 它们 的 页 面 : 因为 假设 LD 间 的 网 络 无 限 快 速 ， 所 以 每 个 
内 存 总 线 都 没有 竞争 ， 这 时 1. 
3) 两 个 线程 都 在 LD0 访问 它们 的 页 面 : 由 于 它们 内 存 总 线 存 在 竞争 导致 2. 
4) 两 个 线程 都 在 LDI 访问 它们 的 页 面 : 由 于 它们 内 存 总 线 存 在 竞争 导致 2. 
这 四 种 情形 等 概率 发 生 ， 所 以 流 化 两 个 页 面 的 平均 时 间 tag = (1+1+2+2)/4 = 1.5。 因 此 ， 
P= Witas = 4p/3， 也 就 是 ， 该 代码 比 最 佳 局 部 访问 惕 33%。 
这 个 导数 很 简单 ， 因 为 我 们 仅 涉及 两 个 局 部 区 域 ， 并 且 无 论 它们 被 映射 到 什么 地 方 ， 基 
本 的 工作 包 都 是 两 个 页 面 。 你 能 够 一 般 化 任意 数量 的 局 部 区 域 分 析 过 程 吗 ? 
习题 8.2 
当 块 组 很 小 时 ， 有 两 个 可 能 的 理由 不 利于 性 能 : 
T 基于 硬件 预 取 机 制 的 x86 架构 处 理 带 实际 上 会 适得其反 。 一 旦 预 处 理 器 被 一 定数 量 
的 连续 的 cache 失效 (这 里 是 2 ) 激活 后 ， 它 开始 传输 数据 到 cache 直到 当前 页 面 末 
E (或 者 直到 取消 )。 如 果 块 组 大 小 小 于 一 个 页 面 ， 那么 获取 的 一 些 数据 将 不 需要 并 
且 这 会 浪费 带宽 和 cache 容量 。 块 组 大 小 越 接 近 页 面 大 小 ， 影 响 越 小 。 
O 一 个 小 块 组 也 将 增加 TLB 失效 的 数量 。TLB 失效 对 性 能 的 影响 强 依赖 于 处 理 器 本 身 。 
请 参考 习题 3.8。 
习题 8.3 
如 果 需 要 多 流 ， 那 么 相对 于 首次 访问 策略 ， 循 环 布局 策略 可 能 产生 好 的 单 槽 性 能 ， 这 是 因 
为 部 分 市 宽 可 以 通过 远程 访问 来 满足 。 但 是 ， 这 种 策略 带 来 的 好 处 很 大 程度 上 依赖 于 硬件 。 
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习题 8.4 
并 行内 层 归 约 循环 很 好 ， 但 是 仅 对 于 大 规模 问题 适用 ， 这 是 因为 OpenMP 开销 和 NUMA 


布局 策略 问题 。 但 是 ， 外 层 循 环 对 不 同和 迭代 有 不 同 负 载 ， 所 以 存在 严重 负载 均衡 问题 : 


; !SOMP PARALLEL DO SCHEDULE (RUNTIME) 


i 
2 do r=1,N ! parallel initialization 
3 y(r) = 0.d0 

4 x(r) = 0.d0 

5 do c=1,r 

6 a(c,r) =0.d0 

7 enddo 

8 enddo 


9 !SOMP END PARALLEL DO 


ıı !SOMP PARALLEL DO SCHEDULE (RUNTIME) 


12 do r=1,N ! actual triangular MVM loop 
13 do c=l,r 

14 yr) = y(r) + a{c,T} * Ke) 

15 enddo 

16 enddo 


17 !SOMP END PARALLEL DO 


为 了 得 到 好 的 布局 ， 我 们 在 ccNUMA 系统 中 增加 了 并 行 初始 化 循环 。 

标准 静态 调度 在 这 里 当然 不 是 一 个 好 的 选择 。 具 有 合适 大 小 块 组 的 指导 性 或 者 动态 调度 
能 够 使 负载 均衡 而 不 会 带 来 太 多 开销 ,但 是 在 ccNUMA 上 将 导致 非 局 部 访问 这 是 因为 块 组 
是 在 运行 时 动态 分 配 。 因 此 ， 仅 有 的 合理 选择 是 静态 调度 ， 并 且 块 组 大 小 使 得 矩阵 行 不 用 太 
靠近 三 角 和 矩阵 tip. 

那么 xO 的 布局 问题 呢 ? 

习题 8.5 

并 行 循环 调度 是 一 个 关键 点 。 初 始 化 和 工作 共享 的 循环 调度 应 该 是 相同 的 。 如 果 我 们 使 
用 单 循 环 ， 一 个 可 能 块 组 的 大 小 将 是 循环 迭代 次 数 的 倍数 ， 将 存放 在 char 中 。 处 理 D 类 型 
对 象 的 工作 共享 循环 上 的 块 组 大 小 将 参考 sizeof (D) 的 大 小 ,并且 NUMA 布局 将 是 错误 的 。 

习题 9.1 

交换 发 送 和 接收 的 顺序 也 适用 于 进程 个 数 为 奇数 时 。“ 剩 下 ”的 进程 将 不 得 不 等 待 直到 
其 相 邻 进程 完成 通信 。 参 见 10.3.1 节 中 有 关 “ 开 链条 ”的 讨论 。 

习题 9.2 

引用 MPI 标准 (3.7 节 ): 

在 所 有 情况 下 ， 发 送 开 始 的 调用 [意味 着 一 个 非 阻塞 发 送 ] 都 是 局 部 的 : 它 会 立即 返回 
而 不 管 其 他 进程 的 状态 。 如 果 这 个 调用 引起 了 一 些 系 统 资 源 被 耗 尽 ， 那 么 它 将 会 失败 并 且 返 
回 一 个 错误 码 。MPI 的 高 质量 实现 应 该 确保 它 仅 发 生 在 “病态 的 ”情形 。 也 就 是 说 ， 一 个 
MPI 实现 应 该 能 够 支持 大 量 挂 起 的 非 阻 塞 操 作 [P15]。 

这 意味 着 使 用 非 阻 塞 调用 是 一 种 阻止 死 锁 的 可 靠 方法 ， 因 为 MPI 标准 不 允许 在 两 个 处 
理 器 上 的 一 对 匹配 的 发 送 和 接收 永远 保持 未 完成 状态 。 

习题 9.3 

对 于 开 边 界 条 件 ， 多 达 12 个 进程 没有 停滞 期 ， 这 是 因为 每 个 子 区 域 上 面临 通信 的 最 大 
数 随 每 个 新 的 分 解 而 改变 。 然 而 ， 我 们 将 在 12 和 16 个 进程 间 看 到 一 个 停滞 期 : 从 (3,2,2) 
变化 到 (4,2,2 )， 没 有 新 的 子 区 域 类 型 (考虑 到 通信 特点 )。 如 果 在 每 个 方向 上 至 少 有 三 个 子 
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区 域 ， 那 么 将 不 再 发 生根 本 性 改变 ， 理 想 性 能 与 实际 性 能 之 间 的 比率 为 固定 值 。 这 种 情况 至 
少 含有 27 个 进程 ( 3,3,3 )。 

习题 9.4 

最 小 的 子 区 域 大 小 (在 3 x 2 x 2=12 个 处 理 器 时 ) 为 40 x 60°, 一 次 扫描 大 约 为 Ims 的 时 
间 。 这 种 情况 下 ，50 ps 的 延迟 需要 乘 以 X= 6， 因 此 聚合 的 延迟 已 经 接近 于 工 的 1/3。 人 们 
可 以 认为 在 高 效 实现 的 情形 下 ，MPI Reduce( 的 开销 是 乒乓 延迟 的 一 个 小 的 倍数 (测量 值 
FE 50 us 和 230ks 之 间 ， 位 于 1 一 12 个 节点 上 上， 当然 这 也 依赖 于 W)。 在 拥有 这 些 改 进 的 情 
况 下 ， 模 型 能 够 很 好 地 重 现 这 些 强 扩展 数据 。 

习题 9.5 

进程 1 上 的 接收 匹配 进程 0 上 的 发 送 ， 但 是 后 者 可 能 抽 不 出 空 来 调用 MPI Send(). ix 


是 因为 集合 通信 例 程 可 能 会 将 通信 空间 内 的 所 有 进程 同步 ， 但 这 不 是 必须 的 〈 当 然 ，MPI_ 


Barrier() 被 定义 用 于 同步 )。 如 果 广 播 是 同步 的 ， 进 程 1 上 的 接收 会 一 直 等 待 与 它 相 匹配 的 

发 送 而 出 现 一 个 经 典 的 死 锁 。 
ke 
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图 B-3” 紧 跟 在 一 个 广播 a) 操作 之 后 ,“ 效 仿 ”MPI Allreduce 执行 一 个 归 约 串 行 化 了 这 两 个 操作 ， 使 得 
大 量 网 络 资源 闲置 。 如 果 网 络 是 非 阻 塞 的 ， 一 个 优化 的 “蝴蝶 ”型 模式 b) 会 节省 大 量 的 时 间 


习题 10.1 

传输 消息 的 数量 在 两 个 例子 中 是 一 样 的 。 因 此 ， 如 果 任 意 两 个 传输 不 能 重合， 那么 线性 
归 约 和 对 数 归 约 的 性 能 是 一 样 的 。 总 线 网 络 ( 见 4.5.2 市 ) 具有 这 样 的 性 质 。 

甚至 在 一 个 完全 非 阻 塞 转换 的 网 络 上 ， 如 果 使 用 静态 路 由 ， 竞 争 也 会 出 现 ( 参 
UL 4.5.3 节 )。 

习题 10.2 


在 广播 之 后 进行 归 约 需要 它们 的 运行 时 间 之 和 ( 见 图 B-3a)。 相 反 ， 一 个 最 优化 的 MPI_ 


Allreduce() 操作 可 以 通过 利用 网 络 中 可 用 的 并 行 点 节省 很 多 时 间 。 

习题 10.3 

在 一 个 典型 的 “ 主 - 从 ”模式 〈 见 5.2.2 市 ) 中 ， 如 果 消 息 大 小 小 于 急切 的 限制 ， 那 么 
工作 进程 的 急切 消息 可 能 会 渣 没 主 进程 。 大 多 数 MPI 实现 可 以 被 配置 为 使 用 更 大 的 缓冲 区 
来 存储 急切 消息 。 使 用 MPI Issend() 也 可 以 作为 一 种 选择 。 
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习题 10.4 

在 数学 上 ( 见 图 10-9), “4 N<11 时 ,“ 网 柱 ” 分 解 比 立方 体 子 区 域 更 好 。8 是 带 有 至 少 
三 个 主要 因素 上 且 小 于 11 的 唯一 整数 。 如 果 我 们 将 一 个 立方 体 分 解 为 2x2x2 及 2x4 两 种 子 
区 域 ， 并且 假 设 为 周期 边 值 条 件 ， 那么 后 者 实际 上 有 一 个 更 小 的 区 域 切 分 表面 。 然 而 ， 这 种 
差异 对 于 开 边 界 将 会 消失 。 

请 注意 ， 此 处 我 们 做 了 一 点 小 小 的 欺骗 图 10-9 中 的 公式 假设 子 区 域 总 是 立方 体 ， 并 
且 网 柱 总 是 有 一 个 正方 形 的 基 。 这 对 于 N=8 时 并 不 成 立 。 但 是 到 目前 为 止 ， 你 可 能 已 经 意 
识 到 这 仅仅 是 一 个 学 术 练 习 ; 三 维 分 解 带 来 更 少 的 通信 这 条 规则 在 实际 应 用 中 是 成 立 的 。 

习题 10.5 
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延迟 对 带宽 的 影响 随 着 入 增加 而 增 大 。 这 个 作业 能 被 大 的 现场 数据 大 小 w 和 线性 问题 
大 小 工 部 分 地 补偿 。 后 面 仅仅 依赖 于 较 大 问题 导致 更 好 的 可 扩展 性 这 个 通常 原则 的 另 一 个 例 
子 〈 这 个 例子 中 是 由 于 减少 的 通信 开销 )。 

注意 ， 人 们 应 该 总 是 确保 无 论 通信 扮演 什么 样 的 角色 ， 并 行 效 率 都 是 可 以 接受 的 。 如 果 
一 个 应 用 花费 了 它 主 要 的 时 间 用 于 通信 ， 则 “骑兵 乓 ”曲线 可 能 会 是 毫 无 意义 的 。 人 们 甚至 
将 不 会 考虑 进一步 增加 N， 除 非 获 得 更 多 的 内 存 。 

习题 10.6 

每 个 未 解决 的 请 求 都 需要 一 个 独立 的 消息 缓冲 区 ， 因 此 如 果 所 有 的 晕 环 通信 都 要 通过 非 
阻塞 MPI 来 处 理 ， 那 么 我 们 将 需要 12 个 中 间 缓 冲 区 。 由 于 这 是 一 个 表面 积 相 对 于 体积 的 效 
应 ， 因 此 额外 的 内 存 需 求 通常 是 微不足道 的 。 此 外 ，MPI_Wait0 必须 被 MPI Waitany() 或 者 
MPI Waitsome() 所 替换 。 

习题 10.7 


1 call MPI_Isend(...) 
2 call MPI Irecv(....) 
3 call MPI_Waitall(...) 


一 个 可 能 有 用 的 附加 效果 是 ， 如 果 一 组 发 送 和 接收 操作 同时 处 于 未 完成 状态 ， 那 么 MPI 
库 可 能 会 执行 双全 工 传输 。 现 今 的 MPI 实现 都 是 这 么 做 的 。 

习题 10.8 

如 果 所 有 的 子 区 域 具有 相同 的 大 小 ,那么 内 部 的 子 区 域 将 会 执行 得 很 慢 。 尽 管 它们 的 计 
算 负 载 与 所 有 其 他 区 域 并 无 差别 ， 但 它们 必须 花费 更 多 时 间 用 于 通信 ， 这 导致 了 负载 不 均 
衡 。 然 而 ， 如 果 进 程 数 很 大 ， 则 那些 内 部 区 域 将 占据 主导 (从 数量 上 )。 边 界 子 区 域 是 调 速 
逆 置 ， 并 且 只 人 允许 少量 出 现 〈( 见 5.3.9 节 )， 因 此 这 对 于 大 规模 问题 没有 影响 。 另 一 方面 ， 若 
只 有 3x3x3=27 个 进程 ， 且 通信 开销 成 为 问题 ， 那 么 人 们 会 考虑 扩大 边界 子 区 域 以 获得 更 
好 的 负载 均衡 。 
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distributed memory (分 布 式 内 存 )，102 
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Eckert, Presper, 1 
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hardware thread (WEF), 277 
hierarchical systems (多 级 递 阶 系统 )，see hybrid 
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hybrid (混合 ) 
MPI/OpenMP programming ( ~ MPI/OpenMP 
编程 )，264 
programming ( 一 程序 设计 )，xviii，247，252 
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Hyper-Threading (#824 424% ), see threading 
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HyperTransport (#4), 25, 100, 113, 114, 
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IBM Blue Gene (IBM 蓝 色 基因 )，112，137 
ILLIAC IV, 298 

ILP, see instruction-level parallelism 

IMB suite (IMB ÆfF), 106, 255 
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IPM, 235 
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Jacobi algorithm (Jacobi HY), 71, 117 
hybrid (混合 型 ~ ), 264, 267 
parallel (Ff7T~ ), 156, 224 

JDS, 88 
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L2 group〈 二 级 缓存 )，see cache group 
laggers (rii), 137, 307 
latency (HEIR), 15, 20 
of network (网 络 一 ), 105, 110, 129 
lazy construction (惰性 构建 )，59 
LD, see ccNUMA locality domain 
libnuma ( (PK) libnuma), 285 
lightspeed (SEK), 66 
LIKWID tools (LIKWID 工具 ) 
affinity ( 一 亲 和 性 )，281 
performance counters ( 一 性 能 计数 器 )，44 
topology ( ~Ħ#iłh), 279 
LINPACK, 95 
Linux, xvi, 279 
list vector (JJK mÆ), 34 
load (人 负载 ) 
balancing ( 一 均衡 )，118，304 
imbalance (一 不 均衡 )，119-121，137，151，152， 
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166, 172, 182 
load/store units (存储 单元 )，3 
locality (局 部 性 ) 
of reference (引用 一 )，16 
spatial (空间 一 )，17，75 
temporal (时 间 一 ), 16 
logical processor (逻辑 处 理 器 )，27 
loop (循环 ) 
blocking ( ~BH2E), 82, 291 
fusion ( 一 合并 )，79 
interchange (一 交换 )，77 
nest ( ~HE), 79 
parallelism ( ~F#47), 116, 147 
peeling ( ~A), 89, 293 
remainder ( ~F] R), 49, 80 
skewing (一 扭曲 )，301 
splitting ( 一 分 裂 )，55 
stripmining (一 拆 藏 )，30 
unroll and jam (一 展开 和 隐藏 )，81 93 292 
unrolling ( 一 展开 )，49，80，93，292 
loop-carried dependencies (循环 体 依赖 性 )，12， 
158, 161, 163, 273 
and SIMD ( ~ 与 SIMD), 62 
LRU, 18, 85 
LUp. 73 


malloc(), 59, 199 
mapping problem (映射 问题 )，246 
mask (P-K) 
registers (一 存储 器 )，32 
master-worker ( 主 从 方式 )，120 
matrix〈 和 矩阵 )，69 
transpose ( 一 转 置 )，74 
Mauchly, John, 1 
medium-grained parallelism (中 等 粒度 并 行 )，116 
memory ( 内存 ) 
affinity ( 一 关联 )，277 
bandwidth (一 带宽 )，15，97 
bus (~ 2%), 100 
latency (~~ HEIR), 15, 97, 176 
memory page (AFI), 76, 295 
large (K~ ), 295 


round-robin placement ( 一 循环 置换 算法 )，192 
table ( 一 表 )，186，189 
memory pages (内 存 页 ) 
placement (置换 )，185 
memory-bound (内 存 关 键 )，17 
MESI, 98 
message envelope (消息 信封 )，239 
message passing (消息 传递 )，203 
interface ( 一 接口 )，see MPI 
4-ops( 微 操作 )，8 
MIMD, 96 
MISD, 96 
MLUP, see LUP 
Monte Carlo method (Monte Carlo 方法 )，162 
Moore’s Law (Moore 法 则 ), 7, 15, 23, 96 
MPI, 102, 106, 117, 203 
benchmarks ( 一 基准 )，105 
blocking communication ( 一 阻塞 通信 )，209， 
216 
collective communication ( 一 集群 通信 )，213 
communicator ( 一 通信 域 )，206 
data types ( 一 数据 类 型 )，207 
derived types ( 一 派生 类 型 )，207，248 
message tag (MPI 消息 标签 )，207 
nonblocking communication ( 一 非 阻 塞 通信 )， 
216, 250 
point-to-point communication ( 一 点 对 点 通信 )， 
207 
profiling (一 剖析 )，235-239 
interface ( 一 接口 )，235 
progress ( 一 进程 )，233，250，274 
rank ( 一 序列 )，204 
reduction (一 归 约 )，211 
request handle ( 一 请 求 句 柄 )，217 
synchronous communication ( 一 同步 通信 )，209 
virtual topologies ( 一 虚拟 拓扑 )，220 
wildcards ( 一 通配符 )，209 
wrapper scripts (一 封装 脚本 )，205 
MPI Allreduce (), 260, 306 
MPI Alltoall (), 244 
MPI Barrier(), 213 
MPI Beast (), 213 
MPI Bsend (), 213 
MPI Cart coords (), 222 
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MPI Cart create (), 221, 246 

MP I Cart rank (), 222 

MPI Cart shi ft (), 223 

MPI Comm rank (), 206 

MPI Comm size (), 206 

MPI_Comm_world, 206 

MPI Datatype, 248 

MPI Dims_create (), 222, 244 

MPI Finalize (), 206 

MPI Get count (), 209 

MPI I nit (), 206 

MPI Init thread (), 269 

MPI_irecv (), 217, 250 

MPI _Isend (), 217, 250 

MPI Issend (), 239 

MPI PROC NULL, 223 

MPI Recv (), 208 

MPI_ Reduce (), 214, 253 

MPI Send (), 208, 249 

MPI Sendrecv (), 213, 242, 261 

MPI Sendrecv_replace (), 213, 242 

MPI Ssend (), 212, 241 

MPI Test (), 217 

MPI _ THREAD XXXX, 268 

MPI Type commit (), 249 

MPI Type free (), 249 

MPI Type vector (), 249 

MPI Type XXXXX, 248 

MPI Wait (), 217 

mpirun, 206, 281 

MPMD, 119, 203 

multicore (4%), 156 
awareness ( 一 感知 )，26 
processor ( ~AhH#RE), 3, 9, 23 109, 255 
topology (~#iFh), 279 

multilayer halo (JZE), 248 

multiply-add (Ain (484)), 56, 74 
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NEC 
SX-8 (NEC SX), 6, 31 
SX-9 (NEC SX), 29, 100 
network (24), 102 
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bisection bandwidth ( 一 对 分 带宽 )，108 
contention ( 一 线路 竞争 )，243 ，246 
diameter ( 一 直径 )，110 
fat-tree ( 一 胖 树 形 )，110 
hybrid ( 一 混合 )，113 
latency (~ HEIR), 110 
mesh (一 多 跳 )，112 
nonblocking ( 一 无 阻塞 )，103 
switched ( 一 交换 )，110 
topology ( 一 拓 补 )，104，246 
node (节点 )，102 
nontemporal stores (无 暂 存 存储 )，18，67，69， 
254, 292 
NORMA, 103 
NRU, 18 
numactl, 284 
NUMALink, 101 


numatools, 190 


OMP DYNAMIC, 156 
omp get num threads (), 145 
omp_get thread num (), 145 
omp_in parallel (), 199 
OMP NUM THREADS, 145, 281 
OMP_STACKSIZE, 156 
OpenMP, 97, 117, 143 
barrier (~#H##=), 150, 159, 170 
implicit (AAJ), 150, 154, 170, 176 
chunksize ( ~% k K/h), 151, 174, 189, 
193 
COLLAPSE clause ( ~ COLLAPSE J), 172 
conditional compilation ( 一 条 件 编译 )，154 
COPYIN clause ( ~ COPYIN 子 句 )，147 
critical region ( ~IA KS), 149, 177 
data scoping ( 一 数据 作用 域 )，146 
DO, 147 
F90 module ( ~ F90 模块 )，145 
FIRSTPRIVATE, 147, 154 
FLUSH, 155 
for, 148 
include files ( 一 包含 文件 )，145 


LASTPRIVATE, 163 
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lock (~#i), 150, 178 

loop scheduling ( 一 循环 调度 )，151 

master thread ( 一 主线 程 )，144 

NOWAIT clause ( ~ NOWAIT F %J), 150, 170 

NUM THREADS clause (~ NUM THREADS f 

AJ), 169 

overhead ( ~FF4H), 158, 168, 175 

parallel region ( 一 并 行 域 )，144 

continuous (连续 )，171 

PRIVATE clause ( ~ PRIVATE f%J), 147 

profiling ( 一 性 能 分 析 )，165 

reduction (一 归 约 )，150，178，180 

schedule ( 一 任务 调度 )，188 

SCHEDULE clause ( ~ SCHEDULE J), 151 

sentinel ( 一 哨兵 )，145 

SINGLE, 153, 154 

TASK construct ( ~ TASK 44), 154 

task scheduling point ( 一 任务 调度 点 )，154 

tasking ( 一 任务 分 配 )，153 

thread (一 线程 )，144 

thread ID ( 一 线程 ID )，145 

THREADPRIVATE clause ( ~ THREADPRIVATE 

子 句 )，147 

worksharing directives ( 一 工作 分 摊 指 令 )，147 
operator new (new 运算 符 )，198，202 
optimization (优化 ) 

by compiler (通过 编译 全 一 ), 13, 41, 51-56 

for C++ (为 C++ 一 )，56 
orphaned directives (孤立 指令 )，148 
OS jitter (操作 系统 抖动 )，140 
out-of-core techniques ( 核 外 技术 )，115 
out-of-order execution ( 乱 序 执行 )，8，14 
oversubscription (过 载 )，111 
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padding (填充)，78，180 
parallel (并 行 ) 

computing ( 一 计算 )，95 

efficiency (一 效率 )，125 

file system ( 一 文件 系统 )，116 
parallelism (并 行 度 ) 

data (数据 一 )，116 

functional (功能 一 )，119 
parallelization (并 行 化 ) 


automatic ( 自动 一 )，143 
incremental ( 增 量 一 )，165 
PCI bus (PCI 总 线 )，109 
peak performance( 性 能 峰值 )，3 
performance counters (性 能 计数 硕 )，41，55 
derived metrics (派生 度量 一 )，43 
multiplexing ( 复 用 一 )，44 
performance models (性 能 模型 )，xviii 
bandwidth-based (JES ‘i Si~ ), 63-67, 71-74 
parallel (##47 ~ ), 123-137, 175, 231-232, 
234 
PingPong, 105, 231, 239, 255 
ride ( ~ ride), 248, 260 
pinning (BH), 155, 186, 277 
pipeline (管道 ) 
bubbles〈 气 泡 一 )，11，26，43 
depth (深度 一 )，10，11 
flush (清空 一 ), 48 
latency (延迟 一 ), 10 
multitrack (多 道 一 ), 29 
stalls (停顿 一 )，8，12，43 
throughput (吞吐 量 一 )，10 
wind-down (逐渐 减少 一 )，10 
wind-up (逐渐 增加 一 )，10 
pipeline parallel processing (流水 线 并 行 处 理 )， 
see wave-front parallelization 
pipelining (流水 线 )，7，9 
placement new ( 重 载 new), 197, 201 
PLPA, 283 
POSIX threads (POSIX E), 143, 145, 281 
power ( 功 耗 ) 
dissipation (损耗 一 )，23 
envelope ( 包 络 一 )，23 
power-performance dilemma ( 功 耗 - 性 能 困境 )， 
9, 23, 137 
prefetch (FHH), 20, 65, 174 
in hardware (在 硬件 一 ), 21, 303, 292 
outstanding (在 外 一 )，21 
in software (在 软件 一 )，21 
printf debugging (printf 调试 )，52 
privatization (私有 化 )，146，178，180 
processor (人 处理 何 )，24 
profile (配置 文件 ) 
callgraph (了 苑 数 调用 关系 图 一 )，39 
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flat (平面 ~ ), 38 
profiling (设置 文件 ) 
function-based (F K~ ), 38 
and inlining (一 和 内 联 )，39 
line-based〈 基 于 行 一 )，40 
OpenMP (OpenMP ~ ), 1 
scalar (标量 一 )，37 
programming model (编程 模型 )，102 
pthread create (), 281 


Q 
QuickPath, 25, 100, 114 
R 


race condition (4zft7A/#), 148, 149, 159, 
rand (), 155 
ray tracing (光线 跟踪 )，120 


reduction (1945), 150, 178, 180, 211, 213 


register (A777 #8), 3, 15 
pressure (~E), 52, 55, 81, 82 
spill ( ~f), 55, 81 


rendezvous protocol (集合 点 协议 )，239，241， 


254 

reorder buffer ( 重 排 序 缓冲 区 )，8 
return value optimization (返回 值 优化 )，58 
ring shift (环形 移 位 )，211,，240 
RISC, 8 
root rank《〈 根 阶层 )，214 
routing (fH ) 

adaptive〈 目 适应 一 )，112 

static (静态 ~ ), 111 
row major order (〈 行 优先 次 序 )，70 
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sampling (采样 )，38 
scalability (可 扩展 性 )，121，122 
scaling (扩展 ) 
baseline via af 130, 131, 183, 192 
strong 〈 强 一 )， 
superlinear Ct 130, 184 
weak (55~ ), 123, 124 
sched_setaffinity (), 283 


Schénauer, Willi, 5 
scope (EHER), 52 
sequential equivalence (等 效 性 时 序 )，149 
serialization (A771b), 121 
SGI Altix, 43, 101, 183 
shared memory (SEB AFF), 97 
shared resources (共享 资源 )，121 
shepherd (看 管 ) 
process (一 进程 )，281 
threads ( 一 线程 )，281 
SIMD, 8, 14, 28, 92, 96 
alignment (一 阵列 )，50 


vectorization ( 一 向 量化 )，49，5$4，61，62，287， 
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single-copy transfer ( 单 副 本 转移 )，254 
single-copy transfer ( 单 副 本 转移 )，256 
SISD.2, 96 
slow computing (缓慢 计算 )，132 
SMP, 97 
SMT, see threading 
snoop (HiT), 98 

tilter ( ~Ar), 99 
socket (442), 24 
software pipelining (软件 流水 化 )，12，48，65 
sparse (FR Hi ) 

matrix ( ~4ERE), 86 

MVM ( ~ MVM), 86 
spatial blocking (空间 封锁 )，292 
speeders, 137, 307 
speedup (HiNE#E), 120, 123 
spin-waiting loop (spin-waiting 循环 )，28 
SPMD, 116, 203 
SSE, 8, 50 
stack (#%), 288 
stall cycles (停顿 周期 )，see pipeline stalls 
static construction (静态 结构 )，59 
stencil (模板 )，71 
STL, 199 


storage order (存储 顺序 )，see arrays, multidim- 
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stored-program computer (存储 程序 计算 机 ), 1 


STREAM, 67, 73 
streaming (Yt), 16 
strength reduction (强度 衰减 )，46 
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subnormals (7%KiE#), see denormals V 
superlinear speedup ( 超 线 性 加 速 比 )，130，184 
superscalar (超标 量 ) 

architecture ( 一 体系 结构 )，8 

processors ( 一 处 理 器 )，13 
sweeper code (sweeper 代码 )，196 
switch (交换 机 )，110 

hierarchy (层次 一 )，110 

leaf〈 叶 节点 一 )，111 

nonblocking ( 非 阻 塞 一 )，110 

spine (spine 一 )，111 
synchronization (同步 )，28，211，213 

point (~ x4), 137, 150 


vector ( H] ) 

computers (计算 机 一 )，1，28 

gather (采集 一 )，33 

length (长 度 一 )，29 

registers (寄存器 一 )，29 

scatter (HUE ~ ), 33 

triad (=70#H~ ), 5, 17, 67, 175, 187, 192, 
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vector mode ( [nj 77st), 264, 275 
vector<> template (vector<> #i#Z), 60, 199 
vectorization( 问 量化 )，30 
volatile (volatile 修饰 符 )，155 


T von Neumann Bottleneck (B - WKS MM), 2 

tabulation (#4), 47, 294 W 
task mode (任务 方式 )，265 wallclock time ( 墙 上 时 间 )，5 
taskset，280 wavefront parallelization 〈 波 阵 面 并 行 化 )，159 
TBB, 143 WC buffer (WC IHE), see write combine 
temporal blocking (时 序 阻塞 )，292 buffer 
temporaries (临时 变量 )，56 wind-down (逐渐 减少 )，10，159 
Thinking Machines (智能 机 )，96 wind-up (AMIN), 10, 159 
thread (线程 )，27 wirespeed( 线 速 )，103 

affinity ( 一 亲缘 性 )，277 working set (工作 集 )，47 

pinning ( 一 绑 定 )，155 write (5) 

placement ( ~H), 155, 174 hit (一 命中 )，17 

safety ( 一 安全 )，149，155，199，268，298 miss ( 一 缺失 )，18 
threading (线程 )，26，277 write allocate ( 写 分 配 )，18，67，69，71，254，289 
throughput mode (全 模式 )，297 in-cache (在 cache 中 一 )，75 
TLB，75，93 write combine buffer ( 写 归 并 缓冲 区 )，18 

misses (Kid), 76, 287, 292, 303 
Top500, 95 X 
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